ML基本知识（十三）过拟合

最新推荐文章于 2022-06-02 22:46:18 发布

LightYoungLee

最新推荐文章于 2022-06-02 22:46:18 发布

阅读量280

点赞数

分类专栏： ML基本知识文章标签：机器学习深度学习正则化人工智能

本文链接：https://blog.csdn.net/weixin_37688445/article/details/113772574

版权

ML基本知识专栏收录该内容

16 篇文章 1 订阅

订阅专栏

概念

输入的微小改变产生了输出的较大差异。比如一个识别动物的模型，一开始输入马的特征数据，模型能判断出该输入为马；稍微改动一点之后，比如眼睛稍微大一点，模型马上把输入的动物判别成牛了。

模型过拟合在模型参数角度来看，是由两个原因造成的：

参数量很多
参数很大

如果能解决上述两个问题或者其中的一个，过拟合问题预期都能有效缓解。

规避方法

1. dropout

前向传播每一个batch_size时每个神经元都以一定的概率p被保留，反向传播时更新那些保留下的神经元梯度和与这些神经元相关的权重矩阵参数。这样使得每个batch_size对应的模型都不相同，因而多个batch_size训练后会得到很多模型的平均，相当于模型融合，这样模型的鲁棒性增强，从而最大程度抑制过拟合。

2. 正则化

假设要拟合的函数为 $f (x) = w x + b$ ，正则化的目的是将模型参数( $w$ )学习过程规范化，而非"肆意妄为"地去学，分为L1和L2正则化，两个正则化的公式如下所示：
$\begin{aligned} J_{L1}(w)=L(w)+ \lambda \left | w \right | \\ J_{L2}(w)=L(w)+ \lambda w^2 \end{aligned}$

L1正则化比较容易得到稀疏解，这里会从两种不同的角度来解释。且L1正则化背后的数学假设为参数 $w$ 服从的是拉普拉斯分布，L2正则化背后的数学假设为参数 $w$ 服从的是高斯分布，详情可见这里。

求导角度
假设 $L'(w)|_{w=0}=d_0$ ，对于L2正则化，导数如下所示

$\frac{\partial J_{L2}(w) }{\partial w} |_{w=0}=d_0+2\lambda w=d_0$

对于L1正则化，导数如下所示，
$\begin{aligned} \frac{\partial J_{L1}(w) }{\partial w} |_{w=0^-}=d_0-\lambda \\ \frac{\partial J_{L1}(w) }{\partial w} |_{w=0^+}=d_0+\lambda \end{aligned}$