【机器学习基础】神经网络正则化

最新推荐文章于 2023-09-12 19:39:47 发布

天堂的鸽子

最新推荐文章于 2023-09-12 19:39:47 发布

阅读量995

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TIANTANGDEGEZI/article/details/102636243

版权

本文介绍了神经网络正则化的多种方法，包括高斯先验、早停止、不变性、切线传播和软权重共享。通过这些技术，可以防止过拟合，提高模型的泛化能力。具体探讨了正则化项的选取，如权值衰减及其线性变换不变性，以及早停止策略如何在训练过程中找到最佳模型。此外，还讨论了如何通过卷积神经网络和软权重共享来实现输入变换的不变性，从而增强模型的稳定性和性能。

摘要由CSDN通过智能技术生成

本系列为《模式识别与机器学习》的读书笔记。

一，相容的⾼斯先验

神经⽹络的输⼊单元和输出单元的数量通常由数据集的维度确定，⽽隐含单元的数量 $M$ 是⼀个⾃由的参数，可以通过调节来给出最好的预测性能。

控制神经⽹络的模型复杂度来避免过拟合，根据对多项式曲线拟合问题的讨论，⼀种⽅法是选择⼀个相对⼤的 $M$ 值，然后通过给误差函数增加⼀个正则化项，来控制模型的复杂度。最简单的正则化项是⼆次的，给出了正则化的误差函数，形式为
$\tilde{E}(\boldsymbol{w})=E(\boldsymbol{w})+\frac{\lambda}{2}\boldsymbol{w}^{T}\boldsymbol{w}\tag{5.73}$
这个正则化项也被称为权值衰减（weight decay）。模型复杂度可以通过选择正则化系数 $\lambda$ 来确定，正则化项可以表⽰为权值 $\boldsymbol{w}$ 上的零均值⾼斯先验分布的负对数。

公式(5.73)给出的简单权值衰减的⼀个局限性是：它与⽹络映射的确定缩放性质不相容。考虑⼀个多层感知器⽹络，这个⽹络有两层权值和线性输出单元，给出了从输⼊变量集合 ${x_i\}$ 到输出变量集合 ${y_k\}$ 的映射。第⼀个隐含层的隐含单元的激活的形式为

$z_j=h\left(\sum_{i}w_{ji}x_{i}+w_{j0}\right)\tag{5.74}$

输出单元的激活为

$y_k=\sum_{j}w_{kj}z_j+w_{k0}\tag{5.75}$

假设对输⼊变量进⾏⼀个线性变换，形式为

$x_i\to\tilde{x}_{i}=ax_i+b\tag{5.76}$

然后根据这个映射对⽹络进⾏调整，使得⽹络给出的映射不变。调整的⽅法为，对从输⼊单元到隐含层单元的权值和偏置也进⾏⼀个对应的线性变换，形式为

$w_{ji}\to\tilde{w}_{ji}=\frac{1}{a}w_{ji}$

$w_{j0}\to\tilde{w}_{j0}=w_{j0}-\frac{b}{a}\sum_{i}w_{ji}$

⽹络的输出变量的线性变换

$y_{k}\to\tilde{y}_{k}=cy_k+d\tag{5.77}$

可以通过对第⼆层的权值和偏置进⾏线性变换的⽅式实现。变换的形式为

$w_{kj}\to\tilde{w}_{kj}=cw_{kj}$

$w_{k0}\to\tilde{w}_{k0}=cw_{k0}+d$

于是要寻找⼀个正则化项，它在上述线性变换和下具有不变性，这需要正则化项应该对于权值的重新缩放不变，对于偏置的平移不变。这样的正则化项为

$\frac{\lambda_1}{2}\sum_{w\in\mathcal{W_1}}w^2+\frac{\lambda_2}{2}\sum_{w\in\mathcal{W_2}}w^2$

其中 $\mathcal{W}_1$ 表⽰第⼀层的权值集合， $\mathcal{W}_2$ 表⽰第⼆层的权值集合，偏置未出现在求和式中。这个正则化项在权值的变换下不会发⽣变化，只要正则化参数进⾏下⾯的重新放缩即可： $\lambda_1 \to a^{\frac{1}{2}}\lambda_1$ 和 $\lambda_2 \to a^{-\frac{1}{2}}\lambda_2$ ，正则化项对应于下⾯形式的先验概率分布。

$p(\boldsymbol{w}|\alpha_1,\alpha_2)\propto\exp\left(-\frac{\alpha_1}{2}\sum_{w\in\mathcal{W_1}}w^2-\frac{\alpha_2}{2}\sum_{w\in\mathcal{W_2}}w^2\right)\tag{5.78}$