关于weight decay

最新推荐文章于 2023-12-16 22:52:54 发布

MaloFleur

最新推荐文章于 2023-12-16 22:52:54 发布

阅读量4.7k

点赞数 4

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013700358/article/details/96341489

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

weight decay的作用主要是令神经网络中的权重变小（趋于0），以防止过拟合
如 $y=\sum_{i}{w_ix_i}$ ，则因噪声的存在，可能会令其中某几个 $w$ 偏大，导致无法正确拟合正常输入
weight decay的公式为：

$C=C_0+\frac{\lambda}{2n}\sum_i{w_i^2}$

$\frac{\partial{C}}{\partial{w_k}}=\frac{\partial{C_0}}{\partial{w_k}}+\frac{\lambda w_k}{n}$

其中 $C_0$ 为原误差， $\lambda$ 为weight decay系数，也可以看做是惩罚值, $\frac{1}{2}$ 则用于求导时的简化

原始梯度下降 $w_{new}=w_{old}-\eta\Delta ,\Delta=\frac{\partial{C_0}}{\partial{w_k}}$

使用了weight decay之后， $\Delta$ 中多了一项 $\frac{\lambda w_k}{n}$ ，即对梯度下降时较大的权重，会赋予较大的惩罚值，使新的w趋于0

而在选取decay值上，目前尚没有比较普适的公式
How could I choose the value of weight decay for neural network regularization 中提到用平时调参时常用的两种策略：grid search 和 random search
其实都是类似穷举，首先需要有个验证集（不同于训练集），分别对验证集采取不同decay值(如0.5, 0.1, 0.01等等)进行测试，选取其中效果较好的decay，即作为训练集的decay

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
关于weight decay

weight decay的作用主要是令神经网络中的权重变小（趋于0），以防止过拟合如y=∑iwixiy=\sum_{i}{w_ix_i}y=∑iwixi，则因噪声的存在，可能会令其中某几个www偏大，导致无法正确拟合正常输入weight decay的公式为：C=C0+λ2n∑iwi2C=C_0+\frac{\lambda}{2n}\sum_i{w_i^2}C=C0+2nλ∑iwi...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。