模式识别分类器评价指标之CMC曲线

CMC曲线全称是Cumulative Match Characteristic (CMC) curve,也就是累积匹配曲线,同ROC曲线Receiver Operating Characteristic (ROC) curve一样,是模式识别系统,如人脸,指纹,虹膜等的重要评价指标,尤其是在生物特征识别系统中,一般同ROC曲线一起给出,能够综合评价出算法的好坏。如下图所示:


那么,CMC曲线的原理是什么?怎样编程实现?下面将进行详解。

CMC曲线原理

CMC曲线综合反映了分类器的性能,它的评价指标与现在deep learning中常用的top1 err或top5 err评价指标一样的意思,不同的是这里Rank1 recognition rate表示的是正确率而不是错误率,两者的关系是

Rank1识别率=1-top1 err

Rank5识别率=1-top5 err

它们表示的是什么意思呢?就比如给你一个选择题,有10个选项,但是只有一个选项是正确的,现在让你从中选出正确答案。如果让你猜一次,正确的概率为1/10,你感觉自己状态不好,想从猜一次,现在给你机会,让你再猜一次,现在你总共猜两次,选两个答案,正确率一下子提高到1/5,你又说了,猜两次反映不出你的水平,你要猜五次,也就是从10个选项中选5个选项,这5个选项中包括正确选项的概率大大增加,变为1/2,如果让你猜10次,那蒙对的概率肯定为1了,也有人蒙的能力比较强,可能猜3次就能猜到正确答案,也就是提前收敛到1。CMC曲线Rank1识别率就是表示按照某种相似度匹配规则匹配后,第一次就能判断出正确的标签的数目与总的测试样本数目之比,Rank5识别率就是指前五项(按照匹配程度从大到小排列后)有正确匹配。如果一个样本按照匹配程度从大到小排列后,到最后一项,才匹配到正确标签,这就说明分类器不太好,把最应匹配的判别成最不应匹配的。语言表述有点苍白,还是看具体实现吧。

Matlab编程实现

现设match_dist=NxM的矩阵,其中N为测试样本(test set)数,M为训练样本(training set)数,根据某种相似度匹配规则,如距离或概率或score等,得到的一个匹配矩阵match_dist。示例如下:


具体代码如下:

 %处理测试样本与注册的训练样本匹配的相似度矩阵
        match_scores = zeros(length(num_test),length(num_class));
        true_labels = zeros(length(num_test),length(num_class));
        for i=1:length(num_test)
            for j=1:length(num_class)
                [x,y]=find(num_class(j)==num_train);
                
                %选取匹配程度的中值
                label_distances(i,j) = median(match_dist(i,y));
                if num_test(i)==num_class(j)
                    true_labels(i,j)=1;
                end
            end
        end
        
        %生成CMC
        max_rank = length(num_class);
        
        %Rank取值范围
        ranks = 1:max_rank;
        
        %排序
        label_distances_sort = zeros(length(num_test),length(num_class));
        true_labels_sort = zeros(length(num_test),length(num_class));
        for i=1:length(num_test)
            [label_distances_sort(i,:), ind] = sort(label_distances(i,:));
            true_labels_sort(i,:) =  true_labels(i,ind);
        end
        
        %迭代
        rec_rates = zeros(1,max_rank);
        tmp = 0;
        for i=1:max_rank
            tmp = tmp + sum(true_labels_sort(:,i));
            rec_rates(1,i)=tmp/length(num_test);
        end  
在代码中,num_test为测试样本标签labels向量,num_class为总的类别标签向量,num_train为注册在gallery或训练集中的标签向量,如下所示:

num_test


num_class


num_train


然后,根据已得数据可以直接plot即可得CMC曲线:

plot(1:max_rank,rec_rates)
如下图所示:


看上去不太美观,可以根据set调整一下如下:

hold on
set(gca,'XLim',[1 40]);%X轴的数据显示范围
set(gca,'YLim',[0.6 1]);%X轴的数据显示范围
%set(gca,'XTickLabel',[1:5:40]);%给坐标加标签
title('CMC曲线')
xlabel('Rank')
ylabel('Recognition Rate')
图示如下:











参考:

1. Relating ROC and CMC Curves via the Biometric Menagerie

MATLAB模式识别实现指标分类评估预测如环境业绩等-Training_NPR.m 最近看到很多会员需要使用MATLAB神经网络做如下的事情: 1:MATLAB神经网络对水的质量的分类、评估、预测 (属于环境类分类、评估预测) 2:MATLAB神经网络对空气质量的分类、评估、预测 (属于环境类分类、评估预测) 2:MATLAB神经网络对土壤质量的分类、评估、预测 (属于环境类分类、评估预测) 3:MATLAB神经网络对学员的个人表现进行分类、评估、预测 (属于个人业绩鉴定) 4:MATLAB神经网络对医学、生物学上的细胞、疾病等分类、评估等(属于医学、生物学) 5:MATLAB神经网络对交通、物流等效率方面的分类、评估、预测等(属于交通、物流管理) 6:MATLAB神经网络用于故障诊断 7:概括来讲,就是使用神经网络对某些指标(如空气质量、水质量、个人业绩等)进行“有限”的分类、预测、评价等。 在这里,我特别强调“有限”两个字,因为这正是模式识别工具箱可以解决的问题。我看到很多会员使用不同的神经网络(如模糊识别,RBF, SVM等)。根据我多年的使用经验,其实基于多层BP网络的模式识别是最容易实现、效果非常满意、且结果非常具有说服力。很多会员没有掌握模式识别的精髓,或者网络训练好以后不知道如何评估、使用等。现在我用一个完整的例子来给大家展示一下它的优点。 不知道什么是模式识别,什么是BP网络的会员,请先看一下这个视频:MATLAB模式识别工具箱视频教学 用MATLAB模式识别工具箱(函数)来对某些指标(如空气质量、水质量、个人业绩等)进行分类、评估、预测,分为三步: 数据准备训练和评估预测 下面我来一步一步讲解,先谈数据的准备: 确保输入数据(包括训练以及将来要预测的数据)在比较接近的范围里(归一化是其中一种方式)。 这一个步骤不仅仅是在模式识别里,其实在任何一种网络里,这一步都是必须的。比如说你有400组数据,每组数据对应一个中国县城的空气质量。假设每组数据含有6个指标(称之为A,B,C,D,E,F,G), 如果数据A的范围是10^5-10^7, F的范围是0.1-0.5, 如果用这些数据来训练,很容易导致网络的权重也有同样的数量级的差别,结果是你的网络会非常的“敏感”(可以想象一下,如果F对应的权重是10^10,那么即使F稍微变化一下,都有可能导致网络的输出结果不同。而有时候这样的敏感度并不是你想要的,你可以对数据进行归一化处理,把数据都转换到0-1的区间内。 MATLAB模式识别工具箱可以自动对输入数据进行归一化处理,所以你只要明白这个过程,但是并不需要你额外写程序来处理这些数据。对输出数据进行二进制量化 通常情况下,用于测试的输入数据所对应的输出数据不是量化数据,比如说:优、良,或者是一级、二级等等。那么通常我们用二进制来表达,两位数字的二进制可以表示3类(01,10,11),三位数字的二进制可以表示7类(001,010,011,100,101,110,111,通常我们不使用000)。二进制的顺序不重要,比如说优可以对应001,也可以用010来表示。 经过简单处理,输入数据和新添加的二进制输入数据如下图所示: 神经网络——输入数据模式识别.png MATLAB模式识别实现指标分类、评估、预测 原始训练数据下载: training_data.xls MATLAB模式识别实现指标分类、评估、预测 把数据导入到MATLAB程序里close all clear all clc x=xlsread; y=xlsread; inputs = x'; targets = y';复制代码 我们再谈谈网络的训练和评估: 你可以使用MATLAB自带的模式识别工具箱界面来导入数据、调整参数等,然后得到结果。我通常第一次这样使用,得到一个基础架构以后,然后生成m代码,再在代码上修改。这里我演示给大家,如果通过程序来实现。下面是用来做模式识别的代码(工具箱产生的函数): % 创建一个模式识别网络(两层BP网络),同时给出中间层神经元的个数,这里使用20 hiddenLayerSize = 20; net = patternnet; % 对数据进行预处理,这里使用了归一化函数(一般不用修改) % For a list of all processing functions type: help nnprocess net.inputs{1}.processFcns = {'removeconstantrows','mapminmax'}; net.outp
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值