模型评估与选择-----第二部分

最新推荐文章于 2021-12-20 18:14:51 发布

binggorun

最新推荐文章于 2021-12-20 18:14:51 发布

阅读量941

点赞数

分类专栏：周志华--机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/SQL__Learning/article/details/70148061

版权

周志华--机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

上一部分我们介绍了经验误差与过拟合、评估方法，下面我们接着介绍模型评估与选择的其他内容

三、性能度量

回归任务最常用的性能度量是“均方误差”，

$E(f;D) = \frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}$

下面主要介绍分类任务中常用的性能度量

1、错误率与精度

即适用于二分类，也适用于多分类任务。

错误率：分类错误的样本占样本总数的比例；

$E(f;D) = \frac{1}{m}\sum_{i=1}^{m}\prod (f(x_{i})\neq y_{i})$

精度：分类正确的样本占样本总数的比例。

$acc(f;D) = \frac{1}{m}\sum_{i=1}^{m}\prod (f(x_{i})= y_{i}) = 1-E(f;D)$

2、查准率、查全率与F1

分类结果的混淆矩阵
真实情况	预测结果
	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

查准率P与查全率R分别定义：

$P = \frac{TP}{TP+FP}$ $R = \frac{TP}{TP+FN}$

P与R是一对矛盾的度量。在很多情况下我们可以根据学习器的预测结果对样本进行排序，排在前面的是学习器认为“最有可能”是正例的样本，排在最后的是“最不可能”是正例的样本，按此顺序逐个把样本作为正例进行预测，则每次可以计算当前的查全率、查准率，以查全率为横轴，查准率为纵轴，可以得到查准率-查全率曲线（P-R曲线）

若一个学习器的P-R曲线倍另一个学习器的P-R曲线完全“包住”，则可断言或者的性能优于前者。有交叉时一个比例合理的判断依据是曲线下的面积大小，单不太容易估算。也有一些其他的综合考虑P和R的性能度量：

“平衡点”（BEP）：P = R 时的取值。基于BEP，学习器A优于B。

但是BEP太过简化，更常用的是F1度量：

$F1 = \frac{2\times P\times R}{P+R} = \frac{2\times TP}{m+TP-TN}$ 、

其中m为样例总数

在一些应用中，对查全率和查准率的重视程度是不一样的，F1的一般形式可显示出来：

$F\beta = \frac{(1+\beta ^{2})\times P\times R}{(\beta ^{2}\times P)+R}$

其中 $\beta$ >0度量了查全率对查准率的相对重要性。>0 时查全率的影响更大，<0时查准率的影响更大。

但是很多时候我们有多个二分类混淆矩阵，（如多次训练/测试，每次得到一个混淆矩阵；在多个数据集上训练/测试，希望估计算法的全局性能；甚至是多分类任务，每两两类别的组合都对应一个混淆矩阵；总之我们希望在N个二分类混淆矩阵上综合考虑查准率和查全率）：

一种直接的方法是先在各个混淆矩阵上计算出查全率和查准率，然后求均值，得到宏查准率和宏查全率以及相应的宏F1

还可以将个混淆矩阵的对应元素先平均，在基于平均值计算出微查准率、微查全率和微F1

3、ROC与AUC

根据概率预测的结果将测试样本进行排序，可以视不同的应用任务需求来采用不同的截断点，因此排序本身的质量好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏。ROC曲线则是从这个角度出发来研究学习器的泛化性能。

与P-R曲线类似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到ROC曲线。

ROC曲线纵轴使用“真正例率（TPR）”，横轴是“假正例率（FPR）”，两者定义如下：

$TPR = \frac{TP}{TP+FN}$ $FPR = \frac{FP}{FP+FN}$

对角线对应于“随机猜测”模型，而点（0,1）则对应于将所有正例排在所有反例之前的“理想模型”。

进行比较时，与P-R图相似，若一个学习器的ROC曲线被另一个学习器的曲线包围，则后者优于前者。若有交叉，则可用AUC（ROC曲线下的面积）比较。

4、代价敏感错误率与代价曲线

在现实中，不同错误所造成的的后果不一样。

一般来说cost00 = 0，若将第0类判别为第1类所造成的损失更大，则cost01 > cost10。

前面的性能度量大都隐士地假设了均等代价。

在非均等代价下，ROC曲线下，我们所希望的不再是简单地最小化错误次数，而是希望最小化“总体代价”。

一般定义的错误率是直接计算“错误次数”，而“代价敏感”错误率定义：

$E(f;D;cost)=\frac{1}{m}(\sum_{x_{i}\in D^{+}}\prod(f(x_{i})\neq y_{i})\times cost_{01}+\sum_{x_{i}\in D^{-}}\prod(f(x_{i})\neq y_{i})\times cost_{10})$