1.5 正则化和交叉验证

最新推荐文章于 2023-02-20 10:32:36 发布

alone52Hz

最新推荐文章于 2023-02-20 10:32:36 发布

阅读量685

点赞数

分类专栏：李航统计学习个人笔记

本文链接：https://blog.csdn.net/fenxishichengzhang/article/details/62046883

版权

李航统计学习个人笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

上一节说到：如何防止过拟合和欠拟合呢，即选择一个模型复杂度适中的模型，使得训练误差和测试误差均较小。常用两个方法：正则化和交叉验证
正则化：经验风险+正则化项=结构风险，而正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大，为了简单在此可以把正则化项看作是模型参数个数、模型参数值的函数，不妨在此取模型参数向量的范数（1-范数（参数个数），2-范数（参数值）），在此过程中，不需要划分样本集，参数个数未定，会自动选择。
关于使用1-范数、2-范数的不同使用场景待解决？
交叉验证：由于样本量足够，将数据分成三部分，训练数据集，验证数据集，测试数据集，需事先设定不同参数个数后训练得到多个模型（训练误差小），然后在验证集上模型选择测试误差最小的（测试误差小），最后测试集测试看效果；更一般的方式：
简单交叉验证
随机7：3划分样本数据为训练集和测试集合，然后在训练集上训练出不同的模型（训练误差小），在测试集上选择测试误差最小的模型（测试误差小）；
s折交叉验证
随机划分样本数据集为s个互不相交、大小相同的子集，没选定一个模型（如设定参数个数）后，用1个子集测试，剩余s-1个子集测试，把选定模型训练出来的测试误差做平均后，选出各个选定模型平均误差最小的作为模型。
留一交叉法验证
该法为s折交叉验证的特殊情形。该法适用于数据很缺乏的情况。
关于数据缺乏和模型训练需要多少样本量的一个评估待解决？

alone52Hz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
1.5 正则化和交叉验证

上一节说到：如何防止过拟合和欠拟合呢，即选择一个模型复杂度适中的模型，使得训练误差和测试误差均较小。常用两个方法：正则化和交叉验证正则化：经验风险+正则化项=结构风险，而正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大，为了简单在此可以把正则化项看作是模型参数个数、模型参数值的函数，不妨在此取模型参数向量的范数（1-范数（参数个数），2-范数（参数值）），在此过程中，不需要划分样
复制链接

扫一扫