Lukarov‘s 假期学习笔记(四)

生活的常态就是摸鱼

机器学习性能度量

分类度量(续)

3. ROC与AUC

分类过程中,学习器为测试样本生产一个实值或概率预测,然后将预测值与分类阈值(threshold)作比较,大于阈值为正类,反之为反类。这个实值或概率预测结果的好坏,直接决定了学习器的泛化能力。

泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。

根据概率预测结果,我们可以对测试样本进行正排序,这样分类过程就相当于在排序中以某个“截断点”(cut point)将样本分为两部分。在不同的应用中可根据需求采用不同的截断点,例如重视“查准率”可以选择排序靠前的位置来截断,而重视“查全率”则选靠后的位置来截断。
ROC(Receiver Operating Characteristic,即受试者工作特征)曲线 同P-R曲线类似,根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,最终得出两个值,以“真正例率”(True Positive Rate,简称TPR T P R = T P T P + F N TPR=\frac{TP} {TP+FN} TPR=TP+FNTP)为纵轴,以“假正例率”(False Positive Rate,简称FPR F P R = F P T N + F P FPR=\frac{FP} {TN+FP} FPR=TN+FPFP)为横轴。
在实际情况下通常采用有限样本来绘制ROC图,得到的是散点图,过程为:给定 m + m^{+} m+个正例和 m − m^{-} m个反例,即 m + = T P + F N , m − = T N + F P m^{+}=TP+FN,m^{-}=TN+FP m+=TP+FN,m=TN+FP,根据学习器预测结果对样例排序,然后把阈值设为最大,即把所有样例均预测为反例,此时TPR和FPR都为0,在(0,0)标记一个点,然后将分类阈值依次设为每个样例的预测值,即依次将每个样例划分为正例,设前一个标记点坐标为 ( x , y ) (x,y) (x,y),当前若为真正例,则对应标记点为 ( x , y + 1 m + ) (x,y+\frac{1}{m^{+}}) (x,y+m+1),若为假正例,则对应标记点为 ( x + 1 m − , y ) (x+\frac{1}{m^{-}},y) (x+m1,y),之后再连接两点即可。
通常通过 AUC(Area Under ROC Curve) 来比较学习器的优劣。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值