深度学习：深度神经网络中过拟合的解决方法

最新推荐文章于 2024-04-28 22:14:47 发布

ShadyPi

最新推荐文章于 2024-04-28 22:14:47 发布

阅读量717

点赞数 1

分类专栏：深度学习与神经网络文章标签：深度学习机器学习 dnn

本文链接：https://blog.csdn.net/ShadyPi/article/details/122782518

版权

深度学习与神经网络专栏收录该内容

19 篇文章 1 订阅

订阅专栏

文章目录

L2正则化
随机失活（dropout）
数据集扩增
早终止法

L2正则化

跟在机器学习中学的正则化一致，在代价函数后面加上所有权重矩阵的弗罗贝尼乌斯范数，即所有权重元素平方之和：
$J(W^{[1]},b^{[1]},\cdots,W^{[L]},b^{[L]})=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum_{l=1}^L||W^{[l]}||^2_F\\ ||W^{[L]}||^2_F=\sum_{i=1}^{n^{[l]}}\sum_{j=1}^{n^{[l-1]}}(w_{ij}^{[l]})^2$
最后梯度的表达式跟机器学习正则化也一样，增加了一项 $\frac{\lambda}{m}w$ ，于是向后传播的公式改为
$\begin{aligned} &dZ^{[l]}=dA^{[l]}*g^{[l]'}(Z^{[l]})\\ &dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}+\frac{\lambda}{m}dW^{[l]}\\ &db^{[l]}=\frac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims=True)\\ &dA^{[l-1]}=W^{[l]T}dZ^{[l]} \end{aligned}$
原理大概就是通过把范数加入代价函数，使算法尝试减小权值（接近0），等效于削减了隐藏节点的影响，而隐藏节点变少，模型就会从高方差向高偏差转变，当你有一个合适的 $\lambda$ 时就能得到一个合理的模型。

为什么不添加关于偏置矩阵 $b$ 的正则化呢？是因为相比 $W$ ， $b$ 的元素数量非常少，所以其弗罗贝尼乌斯范数的值相比 $W$ 也很小，在代价函数中受到“重点关注”的仍然是 $W$ 中的元素，而 $b$ 参与正则化与否影响都不是太大，所以我们就不多此一举了。

缺点是要调试参数 $\lambda$ ，需要反复多次训练。

随机失活（dropout）

随机失活是指每次训练的时候，随机使一部分节点失效，将与这些节点相连的通路都删去，在这个网络上进行进行正向传播与反向传播对模型进行训练。

一种常见的实现是反向随机失活，对于第 $l$ 个隐藏层的节点向量 $a^{[l]}$ ，我们生成一个相同大小随机向量，每个元素取值在 $[0, 1]$ 。对于小于设定阈值的元素置为1，大于的设为0，用这个向量与 $a^{[l]}$ 元素对应相乘，就可以随机清零一些节点。设置的阈值称为keep-prob，即保留节点的概率。