机器学习(03)—性能度量


对机器学习的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,即性能度量(performance measure)

性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求。

1. 回归模型的性能度量

给定样例集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . ( x m , y m ) , } D=\{(x_1,y_1),(x_2,y_2)...(x_m,y_m),\} D={ (x1,y1),(x2,y2)...(xm,ym),},其中 y i y_i yi是示例 x i x_i xi的真实输出。要评估学习器 f f f的性能,就要把学习器预测结果 f ( x ) f(x) f(x)与真实输出 y i y_i yi进行比较。

回归任务最常用的性能度量是“均方误差”(mean squared error)
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 (1) E(f;D) = \frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2\tag1 E(f;D)=m1i=1m(f(xi)yi)2(1)
更一般的,对于数据分布 D D D和概率密度函数 p ( ⋅ ) p(\cdot) p(),均方误差可描述为
E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x (2) E(f;D) = \int_{x\sim D}(f(x)-y)^2p(x)dx\tag2 E(f;D)=xD(f(x)y)2p(x)dx(2)

2. 分类模型的性能度量

2.2 错误率与精度

错误率和精度是分类任务中最常用的两种性能度量,既适用于二分类任务,也适用于多分类任务。错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。对样例集 D D D分类错误率定义为
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) ≠ y i ) (3) E(f;D) = \frac{1}{m}\sum_{i=1}^m(f(x_i)\neq y_i)\tag3 E(f;D)=m1i=1m(f(xi)=yi)(3)
精度则定义为
a c c ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) = y i ) = 1 − E ( f ; D ) (4) acc(f;D) = \frac{1}{m}\sum_{i=1}^m(f(x_i)= y_i)\\ = 1-E(f;D)\tag4 acc(f;D)=m1i=1m(f(xi)=yi)=1E(f;D)(4)
更一般的,对于数据分布 D D D和概率密度函数 p ( ⋅ ) p(\cdot) p(),错误率与精度可分别描述为
E ( f ; D ) = ∫ x ∼ D ( f ( x ) ≠ y ) 2 p ( x ) d x (5) E(f;D) = \int_{x\sim D}(f(x)\neq y)^2p(x)dx\tag5 E(f;D)=xD(f(x)=y)2p(x)dx(5)
a c c ( f ; D ) = ∫ x ∼ D ( f ( x ) = y ) 2 p ( x ) d x = 1 − E ( f ; D ) (6) acc(f;D) = \int_{x\sim D}(f(x)= y)^2p(x)dx\\ = 1-E(f;D)\tag6 acc(f;D)=xD(f(x)=y)2p(x)dx=1E(f;D)(6)

2.3 查准率、查全率与F1

错误率和精度虽常用,但并不能满足所有任务需求。例如在信息检索中,我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”,“用户感兴趣的信息中有多少被检索出来了”。“查准率”(precision)与“查全
率”(recall)是更为适用于此类需求的性能度量。

对于二分类问題,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形,令 T P 、 F P 、 T N 、 F N TP、FP、TN、FN TPFPTNFN分别表示其对应的样例数,显然有 T P + F P + T N + F N = m TP+FP+TN+FN=m TP+FP+TN+FN=m(m为样例总数)、分类结果的“混淆矩阵”(confusion matrix)如表所示:

真实情况 预测正例 预测反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

查准率 P P P与查全率 R R R分别定义为:
P = T P T P + F P (7) P = \frac{TP}{TP+FP}\tag7 P=TP+FPTP(7)
R = T P T P + F N (8) R = \frac{TP}{TP+FN}\tag8 R=TP+FNTP(8)

查准率与查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
P-R曲线与平衡点示意图:
在这里插入图片描述
P-R图直观地显示出学习器在样本总体上的杳全率、查准率,在进行比较时:

  1. 若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,例如图中学习器A的性能优于学习器C;
  2. 如果两个学习器的P-R曲线发生了交又,例如图中的A与B,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较。

然而,在很多情形下,人们往往仍希望即使学习器A与BPR曲线发生也能比出个高低.这时一个比较合理的判据是比较P-R曲线下面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对“双高“的比例,但这个值不太容易估算,因此,人们设计了一些综合考虑杳准率、杳全率的性能度量——”平衡点“(Break-EventPoint,筒称BEP)。它是“查准率=查全率”时的取值,例如图中学习器C的BEP是0.64,而基于BEP的比较,可认为学习器A优于B。

但BEP还是过于简化了些,更常用的是F1度量:
F 1 = 2 P R P + R = 2 T P m + T P − T N (9) F1=\frac{2PR}{P+R} = \frac{2TP}{m+TP-TN}\tag9 F1=P+

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值