算法知识点——（2）模型评估

最新推荐文章于 2024-03-17 15:10:43 发布

Lynqwest

最新推荐文章于 2024-03-17 15:10:43 发布

阅读量1.6k

点赞数

分类专栏：算法知识点文章标签：机器学习算法面试

本文链接：https://blog.csdn.net/lynqwest/article/details/100553226

版权

本文详细探讨了机器学习模型的评估指标，包括准确率、精准率、召回率和平方根误差，指出它们的局限性，并介绍了ROC曲线与AUC的概念和计算。此外，文章还讨论了模型评估方法，如Holdout检验、交叉检验和自助法，以及过拟合与欠拟合的解决策略。最后，探讨了超参数调优，包括网格搜索、随机搜索和贝叶斯优化算法的应用。

摘要由CSDN通过智能技术生成

一、评估指标及其局限性

1. 准确率

$\large Accuracy=\tfrac{n_{correct}}{n_{total}}$

准确率是分类问题中最简单也是最直观的评价指标，但存在明显的缺陷。比如，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。为了解决这个问题，可以使用更为有效的平均准确率（每个类别下的样本准确率的算术平均）作为模型评估的指标

2. 精准率和召回率

P-R曲线的横轴是召回率，纵轴是精确率。对于一个排序模型来说，其P-R曲线上的一个点代表着，在某一阈值下，模型将大于该阈值的结果判定为正样本，小于该阈值的结果判定为负样本，此时返回结果对应的召回率和精确率。即当阈值提高时，判定为正样本的标准更加严格，Precision值计算更加严格，分类器需要分类器需要尽量在“更有把握”时才把样本预测为正样本，FP减少，Precision值提高，但此时往往会因为过于保守而漏掉很多“没有把握”的正样本，导致Recall值降低。

为更全面的评估模型，引入F1-SCORE，是精准率和召回率的调和平均值

$\large F1=\tfrac{2*precision*recall}{precision+recall}$

3. 平方根误差

RMSE经常被用来衡量回归模型的好坏.一般情况下， RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中，如果存在个别偏离程度非常大的离群点（Outlier）时，即使离群点数量非常少，也会让RMSE指标变得很差。

$\large RMSE=\frac{\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}}{n}$

针对这个问题，有什么解决方案呢？可以从三个角度来思考。第一，如果我们认定这些离群点是“噪声点”的话，就需要在数据预处理的阶段把这些噪声点过滤掉。第二，如果不认为这些离群点是“噪声点”的话，就需要进一步提高模型的预测能力，将离群点产生的机制建模进去（这是一个宏大的话题，这里就不展开讨论了）。第三，可以找一个更合适的指标来评估该模型。关于评估指标，其实是存在比RMSE的鲁棒性更好的指标，比如平均绝对百分比误差（Mean AbsolutePercent Error， MAPE） :

$\large MAPE=\sum_{i=1}^{n}\left | \frac{y_{i}-\hat{y_{i}}}{n} \right |*\frac{100}{n}$