机器学习模型评估与选择(2)

最新推荐文章于 2022-07-02 11:57:58 发布

lucky_yang_

最新推荐文章于 2022-07-02 11:57:58 发布

阅读量394

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucky_yang_/article/details/80409862

版权

上节讨论了留出法、交叉验证法、自助法这三种实验评估方法，有了方法，还需要评价标准，这就是性能度量

性能度量也有很多中种，之前说过
分类：预测离散值，二分类和多分类
回归：预测连续值

回归任务最常用的性能度量是均方误差，一般的，对于数据分布D和概率密度函数p：

E (f; D) = \int x \sim D (f (x) - y) 2 p (x) d x

$E(f;D)=\int_{x\sim{D}}(f(x)-y)^2p(x)dx$
其中，f(x)是学习器的预测结果，y是真实label。

主要讨论分类任务种常用的性能度量

错误率：分类错误的样本数占样本总数的比例
精度：分类正确的样本数占样本总数的比例
对于数据分布D和概率密度函数p，错误率如下：

对于数据分布D和概率密度函数p，精度如下：

错误率和精度不能满足所有任务需求，例如对于西瓜问题有：
“挑出的西瓜有多少比例是好瓜”——查准率
“所有的好瓜有多少比例被挑出来”——查全率
对于二分类问题，定义混淆矩阵如下：

这里写图片描述
这时，查准率P可以定义为：

P = T P T P + F P

$P=\frac{TP}{TP+FP}$
查准率就是预测结果种的正例的准确率
查全率R可以定义为：

R = T P T P + F N

$R=\frac{TP}{TP+FN}$
查全率是真实情况的正例被预测出来的比例

在复杂任务中，查准率和查全率是一对矛盾的度量。

根据学习器的预测结果对样例进行排序，“最可能”是正例的样本排在前面。按这个顺序逐个选择样本作为边界，这个样本之前都作为正例（包括这个样本），这个样本之后都作为反例，计算出当前的查准率P，查全率R，这就是PR图中的一个点。当只包含1个样本作为正例的时候的PR pair是多少（R肯定接近0，P理论上接近1），2个、3个、一直到所有的检测样本都包含。以P为纵轴，R为横轴，就得到PR曲线。

这里写图片描述

如上图所示，A的曲线完全包住C，故学习器A的性能优于C；而A,B曲线有交叉，就不能断定谁优谁劣，只能在具体P或R值下比较。

平衡点（BEP）：P=R时的取值

也可以基于平衡点比较学习器性能，此时，A性能>B性能>C性能

因为BEP太简单了，更常用F1度量，F1度量是基于查准率P和查全率R的调和平均定义的。

1 F 1 = 1 2 (1 P + 1 R

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习模型评估与选择(2)

上节讨论了留出法、交叉验证法、自助法这三种实验评估方法，有了方法，还需要评价标准，这就是性能度量性能度量也有很多中种，之前说过分类：预测离散值，二分类和多分类回归：预测连续值回归任务最常用的性能度量是均方误差，一般的，对于数据分布D和概率密度函数p： E(f;D)=∫x∼D(f(x)−y)2p(x)dxE(f;D)=∫x∼D(f(x)−y)2p(x)dxE(f;D)=\int_{...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。