机器学习面试必知：评价指标和含义

最新推荐文章于 2022-04-14 10:12:18 发布

Neekity

最新推荐文章于 2022-04-14 10:12:18 发布

阅读量956

点赞数 2

分类专栏：机器学习面试文章标签：模型评估 PR ROC AUC F1

本文链接：https://blog.csdn.net/neekity/article/details/88239666

版权

机器学习同时被 2 个专栏收录

39 篇文章 1 订阅

订阅专栏

面试

39 篇文章 3 订阅

订阅专栏

TP—正确地预测了正类，正 $\rightarrow$ 正
TN—正确地预测了负类，负 $\rightarrow$ 负
FP—错误地预测了正类，负 $\rightarrow$ 正
FN—错误地预测了负类，正 $\rightarrow$ 负

准确率 $Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$ 准确率是分类问题中最简单也是最直观的评价指标，但存在明显缺陷，在样本类别不平衡时，例如负样本占99%，分类器只需要全部分类成负样本就能得到99%的准确率，所以这时占比大的类别往往成为影响准确率的最主要的因素。

精确率 $P=\frac{TP}{TP+FP}$
召回率 $R=\frac{TP}{TP+FN}$
在排序问题中，通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本，而是采用Top N返回结果的精确率或者召回率来衡量排序模型的性能。

P-R曲线的横轴是召回率，纵轴是精确率。
其P-R曲线上的一个点代表着，在某一阈值下，模型将大于该阈值的结果判定为正样本，小于该阈值的结果判定为负样本，此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表阈值最大时模型的精确率和召回率。

$F_{1}$ 是精确率和召回率的调和均值 $\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}$ $F_{1}=\frac{2TP}{2TP+FP+FN}$

ROC曲线的横坐标是假阳性率FPR，纵坐标是真阳性率TPR。 $FPR=\frac{FP}{N}$ $TPR=\frac{TP}{P}$ 相比于P-R曲线，ROC曲线有一个特点，当正负样本的分布发生变化时，ROC曲线的形状基本能保持不变，而P-R曲线的形状会发生较剧烈的变化。

如何处理缺失值

当缺失值较多时直接舍弃这一特征
(a)用一个异常值(比如0)填充。 (b)用均值或者条件均值填充。©用相邻数据填充。(d)插值。(e)拟合。

数据不平衡怎么办
使用正确的评估标准,当数据不平衡时可以采用精度,调用度,F1得分,MCC,AUC等评估指标。
重新采样数据集,如欠采样和过采样。欠采样通过减少冗余类的大小来平衡数据集。当数据量不足时采用过采样,尝试通过增加稀有样本的数量来平衡数据集,通过使用重复,自举,SMOTE等方法生成新的样本。
以正确的方式使用K-fold交叉验证,组合不同的重采样数据集,对多数类进行聚类。

Neekity

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习面试必知：评价指标和含义

TP—正确地预测了正类，正→\rightarrow→正TN—正确地预测了负类，负→\rightarrow→负FP—错误地预测了正类，负→\rightarrow→正FN—错误地预测了负类，正→\rightarrow→负准确率Accuracy=TP+TNTP+TN+FP+FNAccuracy=\frac{TP+TN}{TP+TN+FP+FN}Accuracy=TP+TN+FP+FNTP+...
复制链接

扫一扫