百面机器学习-模型评估_百面机器学习评价指标-CSDN博客

本文链接：https://blog.csdn.net/m0_51607165/article/details/123655411

第二章模型评估

1.评估指标的局限性
2.ROC曲线
3.余弦距离的应用
4.A/B测试的陷阱
5.模型评估方法
6.超参数调优
7.过拟合和欠拟合

只有选择与问题相匹配的评估方法，才能快速发现模型选择或者训练过程中出现的问题。

1.评估指标的局限性

准确率的局限性：
分类正确的样本占总样本个数的比例。
不同类别样本比例不均衡时，会影响准确率。
精确率与召回率的权衡
精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率是指分类正确的正样本个数占真正正样本个数的比例。
PR曲线横轴是召回率，纵轴是精确率。
F1分数是精确率和召回率的调和平均数。
平方根误差的意外
RMSE经常被用来衡量回归模型的好坏。一般情况下RMSE能够很好的反应回归模型预测值与真实值的偏离程度，但是在实际问题中，如果个别偏离程度非常大的离群点时，即使离群点非常少，也会使得RMSE指标变得很差。
==存在噪声点。==解决办法在数据预处理的时候就剔除这些噪声点。若不是噪声点则需要提高模型的预测能力，将离群点产生的机制建模进去。可以找到一个更合适的指标来评估该模型。

2.ROC曲线

经常作为评估二值分类器最重要的指标之一。
ROC曲线的横坐标为假阳性率，纵坐标为真阳性率。
==横坐标：==假阳性率：负样本被预测为正与真实负样本的比例
==纵坐标：==正阳性率：正样本被分类为正与真实为正样本的比例。
计算AUC
AUC指的是ROC曲线下的面积大小，该值能够量化地反映基于ROC曲线衡量出模型的性能。

ROC和PR曲线的特点
正负样本比例发生变化，ROC曲线的形状基本保持不变，而PR曲线的形状一般会发生剧烈变化。
降低不同测试数据集带来的干扰，更加客观地衡量模型本身的性能。
PR曲线能够更加直观地反应模型在特定数据集上的表现，直观的反应其性能。