模型选择、欠拟合和过拟合学习笔记

最新推荐文章于 2022-05-27 18:36:37 发布

Lostin_sakura

最新推荐文章于 2022-05-27 18:36:37 发布

阅读量335

点赞数

分类专栏：算法学习学习笔记文章标签：机器学习深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36999901/article/details/120588431

版权

学习笔记同时被 2 个专栏收录

6 篇文章 8 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

训练误差&泛化误差

训练误差：模型在训练数据集上表现出的误差，
泛化误差：指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。

过拟合&欠拟合

过拟合：训练误差远小于其在测试数据集上的误差
欠拟合：模型无法得到较低的训练误差

与两者相关的因素： 模型复杂度 & 训练数据集大小

一般来说，训练集样本数过少，特别是比模型参数数量少时，容易过拟合。
给定训练集：
1. 如果模型的复杂度过低，很容易出现欠拟合；
2. 如果模型复杂度过高，很容易出现过拟合。应对欠拟合和过拟合的一个办法是针对数据集选择合适复杂度的模型。

模型复杂度对欠拟合和过拟合的影响

应对过拟合的常用方法：权重衰减 <=> $L_2$ 范数正则化（regularization）

正则化通过为模型损失函数添加惩罚项使训练学习的模型参数值较小。

$L_2$ 范数正则化是在模型原损失函数基础上添加 $L_2$ 范数惩罚项，从而得到训练所需要最小化的函数。

$L_2$ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积，权重越大，惩罚越大。

例：线性回归损失函数：

$l(w_1,w_2,b) = \frac{1}{n}\sum^{n}_{i=1}\frac{1}{2}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})^2$

正则化后，损失函数为：

$l(w_1,w_2,b)+\frac{\lambda}{2}||w||^2$

其中，超参数 $\lambda>0$ 。加了惩罚项后，权重的迭代方式更改为：

$w_1 \leftarrow (1-\eta\lambda)w_1-\frac{\eta}{|B|}\sum_{i\in{B}}x_1^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})$ ,

$w_2 \leftarrow (1-\eta\lambda)w_2-\frac{\eta}{|B|}\sum_{i\in{B}}x_2^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})$

$L_2$ 范数正则化令权重 $w_1$ 和 $w_2$ 先自乘小于1的数，再减去不含惩罚项的梯度。因此， $L_2$ 范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效。

从贝叶斯角度考虑，正则项等价于引入参数的模型先验概率，可以简单理解为对最大似然估计引入先验概率，从而转化为最大后验估计，其中的先验概率即对于正则项

循环神经网络

循环神经网络不是刚性地记忆所有固定长度的序列（对比n元语法），而是通过隐藏状态来储存之前时间步的信息。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。