模式识别分类器评价指标之DET曲线

转自:https://blog.csdn.net/u011501388/article/details/78334996

DET(Detection Error Tradeoff )曲线是对二元分类系统误码率的曲线图,绘制出错误拒绝率FRR(False Reject Rate)与错误接受率(False Accept Rate)之间随着判断阈值的变化而变化的曲线图。现在DET曲线扩展到用于模式识别分类器性能的评价的一个指标之一。

在上式中, 表示正样本总数, 表示正样本被拒绝即判定为负样本的数目, 表示负样本总数,表示被错误接受的样本数,也就是本身是负样本被判定为正样本的样本数目。由此可以看出,FRR与FAR均受到判定阈值的影响,并且当FAR逐渐增大的时候,也就是当错误接受率逐渐靠近1时,FRR错误拒绝率逐渐减小;当FRR逐渐增大时,FAR必然是逐渐减小的。

当在不同的判定阈值时,画出FRR与FAR的关系,也就是DET曲线。

具体Matlab代码如下:


<span style="font-size:14px;">function plot_det(true_scores,false_scores)
%实际上,这里的true_scores=-true_scores
% false_scores=-false_scores

score_max = 9E99;
 
%计算FRR与FAR
num_true = max(size(true_scores));
true_sorted = sort(true_scores);  %label未按照ind排列

true_sorted(num_true+1) = score_max;
 
num_false = max(size(false_scores));
false_sorted = sort(false_scores); %label未按照ind排列

false_sorted(num_false+1) = score_max;
 
frr = zeros(num_true+num_false+1, 1); 

far = zeros(num_true+num_false+1, 1); 
 
npts = 1;

frr(npts) = 0.0;
far(npts) = 1.0;
ntrue = 1;
nfalse = 1;
num_true
num_false
while ntrue <= num_true | nfalse <= num_false
        if true_sorted(ntrue) <= false_sorted(nfalse)
%----------------------------------------------------------------
%----排序后按照对应序号元素比较,并不改变针对某个判定阈值下错误拒  
%绝FR样本数目和错误接受FA样本数目,并且前面已经提到true_scores 
%和false_scores实际上已经取反,所以这里的'<='的结果ntrue实际上 
%变成被拒绝的样本数目。注意:这里是按照距离相似度,距离越小越相似
%----------------------------------------------------------------

                ntrue = ntrue+1;

        else

                nfalse = nfalse+1;

        end

        npts = npts+1;

        frr(npts) = (ntrue-1) / num_true;

        far(npts) = (num_false - (nfalse-1)) / num_false;

end
 
det.frr = frr(1:npts);
det.far = far(1:npts);

plot(det.frr,det.far)
    title('DET曲线')
end</span>


参考:

1. 模式识别 评价方法 ROC曲线, DET曲线, FPPW, FPPI etc.

MATLAB模式识别实现指标分类评估预测如环境业绩等-Training_NPR.m 最近看到很多会员需要使用MATLAB神经网络做如下的事情: 1:MATLAB神经网络对水的质量的分类、评估、预测 (属于环境类分类、评估预测) 2:MATLAB神经网络对空气质量的分类、评估、预测 (属于环境类分类、评估预测) 2:MATLAB神经网络对土壤质量的分类、评估、预测 (属于环境类分类、评估预测) 3:MATLAB神经网络对学员的个人表现进行分类、评估、预测 (属于个人业绩鉴定) 4:MATLAB神经网络对医学、生物学上的细胞、疾病等分类、评估等(属于医学、生物学) 5:MATLAB神经网络对交通、物流等效率方面的分类、评估、预测等(属于交通、物流管理) 6:MATLAB神经网络用于故障诊断 7:概括来讲,就是使用神经网络对某些指标(如空气质量、水质量、个人业绩等)进行“有限”的分类、预测、评价等。 在这里,我特别强调“有限”两个字,因为这正是模式识别工具箱可以解决的问题。我看到很多会员使用不同的神经网络(如模糊识别,RBF, SVM等)。根据我多年的使用经验,其实基于多层BP网络的模式识别是最容易实现、效果非常满意、且结果非常具有说服力。很多会员没有掌握模式识别的精髓,或者网络训练好以后不知道如何评估、使用等。现在我用一个完整的例子来给大家展示一下它的优点。 不知道什么是模式识别,什么是BP网络的会员,请先看一下这个视频:MATLAB模式识别工具箱视频教学 用MATLAB模式识别工具箱(函数)来对某些指标(如空气质量、水质量、个人业绩等)进行分类、评估、预测,分为三步: 数据准备训练和评估预测 下面我来一步一步讲解,先谈数据的准备: 确保输入数据(包括训练以及将来要预测的数据)在比较接近的范围里(归一化是其中一种方式)。 这一个步骤不仅仅是在模式识别里,其实在任何一种网络里,这一步都是必须的。比如说你有400组数据,每组数据对应一个中国县城的空气质量。假设每组数据含有6个指标(称之为A,B,C,D,E,F,G), 如果数据A的范围是10^5-10^7, F的范围是0.1-0.5, 如果用这些数据来训练,很容易导致网络的权重也有同样的数量级的差别,结果是你的网络会非常的“敏感”(可以想象一下,如果F对应的权重是10^10,那么即使F稍微变化一下,都有可能导致网络的输出结果不同。而有时候这样的敏感度并不是你想要的,你可以对数据进行归一化处理,把数据都转换到0-1的区间内。 MATLAB模式识别工具箱可以自动对输入数据进行归一化处理,所以你只要明白这个过程,但是并不需要你额外写程序来处理这些数据。对输出数据进行二进制量化 通常情况下,用于测试的输入数据所对应的输出数据不是量化数据,比如说:优、良,或者是一级、二级等等。那么通常我们用二进制来表达,两位数字的二进制可以表示3类(01,10,11),三位数字的二进制可以表示7类(001,010,011,100,101,110,111,通常我们不使用000)。二进制的顺序不重要,比如说优可以对应001,也可以用010来表示。 经过简单处理,输入数据和新添加的二进制输入数据如下图所示: 神经网络——输入数据模式识别.png MATLAB模式识别实现指标分类、评估、预测 原始训练数据下载: training_data.xls MATLAB模式识别实现指标分类、评估、预测 把数据导入到MATLAB程序里close all clear all clc x=xlsread; y=xlsread; inputs = x'; targets = y';复制代码 我们再谈谈网络的训练和评估: 你可以使用MATLAB自带的模式识别工具箱界面来导入数据、调整参数等,然后得到结果。我通常第一次这样使用,得到一个基础架构以后,然后生成m代码,再在代码上修改。这里我演示给大家,如果通过程序来实现。下面是用来做模式识别的代码(工具箱产生的函数): % 创建一个模式识别网络(两层BP网络),同时给出中间层神经元的个数,这里使用20 hiddenLayerSize = 20; net = patternnet; % 对数据进行预处理,这里使用了归一化函数(一般不用修改) % For a list of all processing functions type: help nnprocess net.inputs{1}.processFcns = {'removeconstantrows','mapminmax'}; net.outp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值