2.机器学习复习笔记-各种评估指标

SpadeA_Iverxin

已于 2022-03-20 16:24:34 修改

阅读量431

点赞数

分类专栏：机器学习基础/面试笔记文章标签：机器学习人工智能

于 2021-07-06 20:49:27 首次发布

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/118529368

版权

机器学习基础/面试笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

- TP FP TN FN

TP FP TN FN

在这里插入图片描述

准确率（Accuracy）

$\frac{num_{correct}}{num_{all}}$

既正确的数量除以错误的数量。

准确率这个指标的短板在于训练数据是否偏斜。以二分类为例，当正样本数量占5%，而负样本数量占95%时，即使模型很拉胯，把所有的测试用例都预测为负的，仍然可以得到acc为95%。所以当样本偏斜较大时，只靠ACC单一指标时不准确的。

解决方案：使用平均准确率。计算每个类别下的准确率，再取平均数。

精确率(Precision)、召回率（Recall)、PR曲线。

$\frac{分类正确的正样本数量}{机器判定为正的数量}=\frac{TP}{TP+FP} \\ \\ Recall = \frac{分类正确的正样本数}{真正的正样本数} = \frac{TP}{TP+FN}$

再信息检索领域，精确率又叫查全率，召回率又叫查准率。

以排序检索为例：假设排序的前N个我们判定为正，即TOP N。

假设有100个搜索结果是相关的，即真正的正样本数=100。假设模型排序时可以把这100的都排到前面。

我们以前TOP N = 5为正，Precision = 5/5 = 100%。而Recall = 5/100 = 5%
我们要提升Recall，就需要把N = 200时，即前TOP200认为是正的，那么Precision = 100/200 = 50%。而Recall = 100/100 = 100%

可见单凭Precision或者Recall是不能正确评估一个排序模型的性能的。需要综合来看。

可以绘制P-R曲线，即精确率-召回率曲线。单凭某个点的Precision Recall值也不能正确描述模型的性能，需要看PR曲线的整体走势。

纵轴为P，横轴为R，N取从高到低分别绘制曲线。

在这里插入图片描述

图片来自《百面机器学习》24页。

其他综合指标：F1 score ROC曲线。

F1 Score

F1 score是精确率和召回率的调和平均值：
$\frac{2\times Precision \times Recall}{Precision+Recall}$
一般可以综合的反应一个排序模型的性能。

RMSE

$\frac {\sum_{i=1}^n (y_i -\hat y_i )^2}{n}$

均方误差的缺陷也很明显，如果有个别的离群点，即使模型拟合的效果很好，RMSE仍然可能居高不下。

解决方法：

如果认为这些点是噪声，就除掉这些离群点。
如果认为他们不是噪声，就需要提升模型的表达能力。
使用更合适的指标，如平均绝对百分比误差（Mean Absolute Percent Error, MAPE），相当于把目标均一化了。
$\sum_{i=1}^n |\frac{y_i-\hat y_i}{y_i }|\times \frac{100}{n}$

ROC

ROC和PR曲线功能一样，可以综合评定一个模型的效果。

ROC曲线的

纵坐标为：真阳性率TPR（True Positive Rate）
横坐标为：假阳性率FPR（False Positive Rate）

$\frac{TP}{P} \\ FPR= \frac{FP}{N}$

TPR为：模型判定正确的（真阳）/正样本的数量

FPR为：模型判定为负样本实际是正样本（假阳）/负样本的数量

对于二分类问题，模型一般输出为正样本的概率。那么存在一个阈值，超过这个阈值我们就认为它是正的。再绘制ROC曲线的时候，就通过从高到低调整这个阈值来实现。

在这里插入图片描述

图片来源《百面机器学习》P29

阈值较好的点就是真阳性率高且假阳性率低的点。这其实一个很难两全的事。

AUC就是ROC曲线下半部分的面积。越大（曲线越接近左上方）说明模型的分类性能越好。

PR曲线和ROC曲线对比

正负样本的分布发生变化，ROC能基本保持不变，PR曲线形状变化一般比较剧烈。

余弦距离、欧氏距离、KL距离

最常用的距离衡量方法就是欧氏距离，即两点的差平方后求和。

余弦相似度：取值范围是[-1, 1]。相同为1
$\frac{A \cdot B}{||A||_2 ||B||_2 }$

$||\cdot||_2$ 是二阶范数。即平方加和再开方，求的是AB的模长。

余弦距离：取值范围是[0,2]，相同为0
$1 - c o s (A, B)$

使用区别

如果特征向量的模长是经过归一化的，欧氏距离与余弦距离有着单调的关系。

欧氏距离体现再数据值上的差异，余弦距离体现在角度上的偏差。

例如：对于视频偏好：(0,1) (1,0) 的欧氏距离只有很小，余弦距离很大。我们更关注相对的差异，选择余弦距离。

对于登录次数（10，100）（1，10）用户的余弦距离很近，但是实际上他们的活动频率完全不同。应该选择欧氏距离。

三条距离公理：正定性（不为负）、对称性、三角不等式。余弦距离不满足三角不等式，不能认为是严格的定义。

KL(Kullback-Leibler Divergence)，也叫相对熵。可以衡量两个分布之间的差异。再RL的TRPO算法和GAN的推到都有用到。不满足对称性和三角不等式。

Reference

[1]. 诸葛越, 葫芦娃等. 百面机器学习[M]. 人民邮电出版社, 2018

SpadeA_Iverxin

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
2.机器学习复习笔记-各种评估指标

文章目录准确率（Accuracy）精确率(Precision)、召回率（Recall)、PR曲线。F1 ScoreRMSEROCPR曲线和ROC曲线对比余弦距离、欧氏距离、KL距离准确率（Accuracy）acc=numcorrectnumallacc = \frac{num_{correct}}{num_{all}}acc=numallnumcorrect既正确的数量除以错误的数量。准确率这个指标的短板在于训练数据是否偏斜。以二分类为例，当正样本数量占5%，而负样本数量占95%时，即使模
复制链接

扫一扫