weight decay

最新推荐文章于 2024-07-18 11:05:47 发布

PAUL_shuo

最新推荐文章于 2024-07-18 11:05:47 发布

阅读量2.7k

点赞数

分类专栏： data mining

本文链接：https://blog.csdn.net/LanQiuChaoRen/article/details/40323965

版权

data mining 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

在ufldl的课程中了解到weight decay，查询了不少博文，简单理解如下：

在机器学习中，常常会出现overfitting，网络权值越大往往overfitting的程度越高，因此，为了避免出现overfitting,会给误差函数添加一个惩罚项，常用的惩罚项是所有权重的平方乘以一个衰减常量之和。

$\begin{align}J(W,b)&= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\&= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\end{align}$
右边项即用来惩罚大权值。权值衰减惩罚项使得权值收敛到较小的绝对值，而惩罚大的权值。从而避免overfitting的出现。