学习笔记 day2 《统计学习方法》李航

最新推荐文章于 2022-01-21 02:01:57 发布

等待戈多。

最新推荐文章于 2022-01-21 02:01:57 发布

阅读量120

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_44554428/article/details/96482423

版权

9 篇文章 1 订阅

订阅专栏

7/19 学习笔记 day2 《统计学习方法》李航

-qiqi

过拟合（over-fitting）：若一味想要提高对训练数据的预测能力，而忽略了模型的复杂度。使所选择的模型的复杂度比实际模型复杂度更高（及所选模型所需要的参数个数>实际拥有的参数个数）。这种现象称之为过拟合。
过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知的数据预测得很好，但对未知的数据预测很差的现象。
模型的选择就是在避免过拟合并提高模型的预测能力

有关例1.1的思考其实就是在过拟合与模型复杂度之间的一个抉择过程。也是在已知数据之间的预测和未知数据预测之间的抉择过程。训练误差与测试误差：训练误差指训练数据与模型的预测数据之间的差值。测试误差为未知数据与模型预测数据之间的差值。（为什么未知数据还知道其实际值呢？目的是为了我们便于理解，例如可以将一部分训练数据来作为未知数据进行预测，以此来判断我们的模型效果如何）

模型选择的典型方法是正则化（regularization）
正则化是结构风险最小化策略的实现。

正则化

另一种常用的模型选择方法是交叉验证
基本想法是重复的使用数据。及将数据既作为训练集又作为测试集或验证集来应用。

交叉验证可分为

关注