机器学习（03）—性能度量

最新推荐文章于 2022-01-06 15:11:36 发布

赵晞兮

最新推荐文章于 2022-01-06 15:11:36 发布

阅读量621

点赞数

分类专栏：统计机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/blaank/article/details/105291563

版权

性能度量

1. 回归模型的性能度量
2. 分类模型的性能度量
3. 聚类模型的性能度量
4. 参考资料

对机器学习的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，即性能度量（performance measure）

性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果；这意味着模型的“好坏”是相对的，什么样的模型是好的，不仅取决于算法和数据，还决定于任务需求。

1. 回归模型的性能度量

给定样例集 $D=\{(x_1,y_1),(x_2,y_2)...(x_m,y_m),\}$ ，其中 $y_i$ 是示例 $x_i$ 的真实输出。要评估学习器 $f$ 的性能，就要把学习器预测结果 $f (x)$ 与真实输出 $y_i$ 进行比较。

回归任务最常用的性能度量是“均方误差”(mean squared error)
$\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2\tag1$
更一般的，对于数据分布 $D$ 和概率密度函数 $p(\cdot)$ ，均方误差可描述为
$\int_{x\sim D}(f(x)-y)^2p(x)dx\tag2$

2. 分类模型的性能度量

2.2 错误率与精度

错误率和精度是分类任务中最常用的两种性能度量，既适用于二分类任务，也适用于多分类任务。错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。对样例集 $D$ 分类错误率定义为
$\frac{1}{m}\sum_{i=1}^m(f(x_i)\neq y_i)\tag3$
精度则定义为
$\frac{1}{m}\sum_{i=1}^m(f(x_i)= y_i)\\ = 1-E(f;D)\tag4$
更一般的，对于数据分布 $D$ 和概率密度函数 $p(\cdot)$ ，错误率与精度可分别描述为
$\int_{x\sim D}(f(x)\neq y)^2p(x)dx\tag5$
$\int_{x\sim D}(f(x)= y)^2p(x)dx\\ = 1-E(f;D)\tag6$

2.3 查准率、查全率与F1

错误率和精度虽常用，但并不能满足所有任务需求。例如在信息检索中，我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”，“用户感兴趣的信息中有多少被检索出来了”。“查准率”(precision)与“查全
率”（recall)是更为适用于此类需求的性能度量。

对于二分类问題，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（true positive)、假正例（false positive)、真反例(true negative)、假反例（false negative)四种情形，令 $T P 、 F P 、 T N 、 F N$ 分别表示其对应的样例数，显然有 $T P + F P + T N + F N = m$ （m为样例总数）、分类结果的“混淆矩阵”（confusion matrix)如表所示：

真实情况	预测正例	预测反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

查准率 $P$ 与查全率 $R$ 分别定义为：
$\frac{TP}{TP+FP}\tag7$
$\frac{TP}{TP+FN}\tag8$

查准率与查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。
P-R曲线与平衡点示意图：
在这里插入图片描述
P-R图直观地显示出学习器在样本总体上的杳全率、查准率，在进行比较时：

若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者，例如图中学习器A的性能优于学习器C；
如果两个学习器的P-R曲线发生了交又，例如图中的A与B，则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较。

然而，在很多情形下，人们往往仍希望即使学习器A与BPR曲线发生也能比出个高低．这时一个比较合理的判据是比较P-R曲线下面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对“双高“的比例，但这个值不太容易估算，因此，人们设计了一些综合考虑杳准率、杳全率的性能度量——”平衡点“（Break-EventPoint,筒称BEP）。它是“查准率=查全率”时的取值，例如图中学习器C的BEP是0.64，而基于BEP的比较，可认为学习器A优于B。

但BEP还是过于简化了些，更常用的是F1度量：
$F1=\frac{2PR}{P+R} = \frac{2TP}{m+TP-TN}\tag9$

最低0.47元/天解锁文章

赵晞兮

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习（03）—性能度量

机器学习模型评估重采样方法模型泛化性能度量模型评估也是机器学习研究中重要的一部分，主要分为三个步骤：对数据集进行划分，分为训练集和测试集两部分；对模型在测试集上面的泛化性能进行度量；基于测试集上面的泛化性能，依据假设检验来推广到全部数据集上面的泛化性能。重采样方法交叉验证法自助法(bootstrap)模型泛化性能度量为了将不同的学习算法的泛化性能进行全面的比较，光靠学习器对某...
复制链接

扫一扫