机器学习（三）模型评估与选择相关知识点复习回顾

最新推荐文章于 2024-08-27 20:28:50 发布

深度菜鸡-达闻西

最新推荐文章于 2024-08-27 20:28:50 发布

阅读量435

点赞数

分类专栏：机器学习文章标签：机器学习

本文为博主所有，如有问题，联系本人，欢迎指正

本文链接：https://blog.csdn.net/qq_37405118/article/details/119875738

版权

5 篇文章 1 订阅

订阅专栏

本文探讨了模型评估的重要性，涉及经验误差和泛化误差的概念，以及过拟合与欠拟合的成因和解决方案。讲解了评估方法如留出法、交叉验证和自助法，以及性能度量如错误率、精度、查准率、查全率、均方误差、ROC曲线和AUC。还介绍了LDA线性判别分析和最小二乘法的应用。

摘要由CSDN通过智能技术生成

一、为什么模型评估

经验误差：就是训练误差，在训练集上训练的误差。

泛化误差：测试集上的误差，训练后的模型在测试集上的误差。

过拟合：当学习器把训练样本学得太好的时候，很可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，这样就会冬至泛化性能下降，这种状态叫过拟合。
欠拟合：与之相反则是欠拟合。

常见的就是学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了。而欠拟合通常由于学习能力低导致。

造成过拟合原因主要有以下几种：

解决过拟合的一些方法：

解决欠拟合的方法：

True positives（TP，真正） : 预测为正，实际为正
True negatives（TN，真负）：预测为负，实际为负
False positives（FP，假正）: 预测为正，实际为负
False negatives（FN，假负）：预测为负，实际为正

均方误差：在预测任务中，我们通过训练得到对应的模型 $f$ ，然后通过模型去进行预测，得到的预测值 $f(x_{i})$ 和真值 $y_{i}$ 进行比较，来评估模型的性能。

公式如下：
$E(f;D))=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2})$

均方误差具有很好的几何意义，它对应了常用的欧几里得距离，基于均方误差最小化来进行模型求解的方法称为 ‘最小二乘法’。

在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。

LDA 的思想非常朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；
在对新样本进行分类的时候，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

ROC

真正例率 TPR = TP / TP + FN = 所有正例中，有多少预测对了，也就是正样本预测精度

假正例率 FPR = FP / TN + FP = 所有负例中，有多少预测对是错的，也就是负样本预测精度
AUC (Area Under ROC Curve)

ROC 曲线下边的面积就是 AUC

关注