《统计学习方法》第一章统计学习方法概论笔记

最新推荐文章于 2022-10-16 17:25:52 发布

黑夜中坚持

最新推荐文章于 2022-10-16 17:25:52 发布

阅读量235

点赞数

分类专栏：统计学习方法文章标签：统计学习方法

本文链接：https://blog.csdn.net/qq_26496077/article/details/103472774

版权

统计学习方法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.统计学习三要素:模型、策略、算法
1)模型:概率模型(由条件概率表示的模型)与非概率模型(由决策函数表示的模型)
2)策略
2.1)损失函数与风险函数
在这里插入图片描述
2.2)期望损失函数(期望风险函数)与经验风险函数
期望风险函数:模型关于联合分布的期望损失:

经验风险函数:模型关于训练样本集的平均损失:

2.3)经验风险最小化与结构风险最小化
经验风险最小化的策略认为:经验风险最小的模型就是最优的模型.即:
在这里插入图片描述
结构风险最小化是为了防止过拟合而提出的策略.结构风险最小化等价于正则化.结构风险最小化在经验上加上表示模型复杂度的正则化项或罚项.在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:
在这里插入图片描述
其中J(f)为模型的复杂度,模型越复杂,J(f)越大.
λ>=0是系数,用以权衡经验风险和模型复杂度.
结构风险最小化的策略认为:结构风险最小的模型就是最优的模型.即:

3)算法
算法是指学习模型的具体计算方法.比如如何找到最优解的算法.

2.模型评估与模型选择
1)训练误差与测试误差
训练误差是模型关于训练数据集的平均损失,其中L函数中的两个参数分别是训练集样本实际输出值、训练集模型预测值:
在这里插入图片描述
测试误差是模型关于测试数据集的平均损失,其中L函数中的两个参数分别是测试集样本实际输出值、测试集模型预测值:

2)过拟合与模型选择

3.正则化与交叉验证
1)正则化

注:第一项是经验风险,第二项是正则化项,λ>=0为调整两者之间关系的系数.

L1范数正则化项:
在这里插入图片描述
L2范数正则化项:

注:正则化项的作用是选择经验风险(第1项)与模型复杂度(第2项)同时小的模型.
奥卡姆剃刀应用于模型选择思想:在所有可能选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型.

2)交叉验证
若给定的样本数据充足,进行模型选择的简单方法是随机将数据切分为三部分:训练集、验证集、测试集.训练集用来训练数据,验证集用于模型的选择,测试集用于最终对学习方法的评估.
但许多实际应用中数据不充足,所以为了选择更好的模型,使用交叉验证的方式.基本思想是:重复的使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上进行反复训练、测试以及模型选择.
2.1)简单交叉验证
在这里插入图片描述
2.2)S折交叉验证

2.3)留一交叉验证