机器学习面试必知:评价指标和含义

TP—正确地预测了正类,正 → \rightarrow
TN—正确地预测了负类,负 → \rightarrow
FP—错误地预测了正类,负 → \rightarrow
FN—错误地预测了负类,正 → \rightarrow

准确率 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN准确率是分类问题中最简单也是最直观的评价指标,但存在明显缺陷,在样本类别不平衡时,例如负样本占99%,分类器只需要全部分类成负样本就能得到99%的准确率,所以这时占比大的类别往往成为影响准确率的最主要的因素。

精确率 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率 R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
在排序问题中,通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本,而是采用Top N返回结果的精确率或者召回率来衡量排序模型的性能。

P-R曲线的横轴是召回率,纵轴是精确率。在这里插入图片描述
其P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表阈值最大时模型的精确率和召回率。

F 1 F_{1} F1是精确率和召回率的调和均值 2 F 1 = 1 P + 1 R \frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R} F12=P1+R1 F 1 = 2 T P 2 T P + F P + F N F_{1}=\frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP

ROC曲线的横坐标是假阳性率FPR,纵坐标是真阳性率TPR。 F P R = F P N FPR=\frac{FP}{N} FPR=NFP T P R = T P P TPR=\frac{TP}{P} TPR=PTP相比于P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状基本能保持不变,而P-R曲线的形状会发生较剧烈的变化。在这里插入图片描述

如何处理缺失值

  1. 当缺失值较多时直接舍弃这一特征
  2. (a)用一个异常值(比如0)填充。 (b)用均值或者条件均值填充。©用相邻数据填充。(d)插值。(e)拟合。

数据不平衡怎么办
使用正确的评估标准,当数据不平衡时可以采用精度,调用度,F1得分,MCC,AUC等评估指标。
重新采样数据集,如欠采样和过采样。欠采样通过减少冗余类的大小来平衡数据集。当数据量不足时采用过采样,尝试通过增加稀有样本的数量来平衡数据集,通过使用重复,自举,SMOTE等方法生成新的样本。
以正确的方式使用K-fold交叉验证,组合不同的重采样数据集,对多数类进行聚类。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值