L2正则化的理解

Bruce-XIAO

已于 2022-12-28 21:21:23 修改

阅读量465

点赞数

分类专栏：【机器学习】文章标签： python 人工智能

于 2022-12-20 22:36:06 首次发布

本文链接：https://blog.csdn.net/CCSUXWZ/article/details/128390935

版权

【机器学习】专栏收录该内容

16 篇文章 0 订阅

订阅专栏

L2正则化

普通的损失函数
$\sum_n( \hat y_n- (b+\sum w_ix_i))^2$
在损失函数后面加上一个正则项，梯度下降的时候时候减小w
$\sum_n( \hat y_n- (b+\sum w_ix_i))^2 + \lambda\sum w_i^2$
梯度下降更新会在原有的梯度上多减去一项，使得w的值更小
$\alpha(\frac {\delta L} {\delta W } +\lambda \sum w)$
更小的权重意味着，学出来的模型更加简单平滑。假设模型为最简单的线性回归模型
$\sum w_i(x_i+\vartriangle x_i)$
当w越小或趋向于0时，x变化时，w $\vartriangle x \to0$
$w_i \to 0 \\w_i\vartriangle x_i \to 0$
因此，模型对输入变化越不敏感，受噪声的影响越小。
不足的点在于，λ过大时，造成w过小，会造成输入x的拟合不足。
在参数λ合适的情况下，增加L2正则化项可以降低模型复杂度，提高测试准确度。

如下图，来自Andrew的课程，
当 $\lambda = 0$ 时，模型 $f(x) = w_1x_1+w_2x^2+w_3x^3+w_4x^4+b$ , 曲线如蓝色线条，模型会非常复杂, 造成过拟合
而当 $\lambda = 10^{10}$ 时，所有的权重都将减小至0， $f (x) = b$ ，如红色线条，模型欠拟合
当选择一个合适的 $\lambda$ 时，得到一个合适的模型，如紫色线
在这里插入图片描述