正则化

最新推荐文章于 2024-09-16 12:18:48 发布

流川是海

最新推荐文章于 2024-09-16 12:18:48 发布

阅读量72

点赞数

分类专栏： # 基本概念文章标签：机器学习正则化

本文链接：https://blog.csdn.net/rzsasuke/article/details/114993638

版权

基本概念专栏收录该内容

4 篇文章 0 订阅

订阅专栏

定义

正则化
通过限制模型参数的范数过大，降低模型复杂度，从而防止过拟合。
范数
- 用于衡量向量和矩阵的大小
- $l_1$ -norm: ${\Vert \bold{w} \Vert}_2=\sqrt{\sum_{i} {w_i}^2}$
- $l_2$ -norm: ${\Vert \bold{w} \Vert}_1=\sum_{i} |w_i|$
- $l_p$ -norm: ${\Vert \bold{w} \Vert}_p=(\sum_{i} {w_i}^p)^{\frac{1}{p}}$
- $l_0$ -norm: ${\Vert \bold{w} \Vert}_0=\#(i|x_i \neq 0)$ ，即非零分量个数
- $l_\infty$ -norm: ${\Vert \bold{w} \Vert}_\infty=max(|w_1|,|w_2|,...,|w_n|)$
正则项（正则化的体现）多和损失函数搭配，作为算法的优化目标函数，如ridge回归算法=线性回归+ $l_2$ -norm、lasso回归算法=线性回归+ $l_1$ -norm
- 损失函数用于降低模型拟合误差即经验风险最小化，正则项用于降低模型复杂度即结构风险最小化

区别

$l_2$ -norm会使参数 $w$ 各分量都趋向于0，而 $l_1$ -norm则使其部分分量等于0、得到稀疏的 $w$ （顺便就达到特征选择的效果）

以图直观感觉，假设 $w$ 是二维向量，彩色圈圈为损失函数 $f(x)=(y-w^Tx)^{2}$ 的值等高线，圈圈直径越大、代表损失函数值越大，而黑色为正则项的等高线，离远点越远、数值越大，现在要找两边等高线的交点使得二值之和最小。
- 当二值之和最小时，交点一定两个等高线相切的点，不然固定其中一个等高线，肯定会有更小的等高线与之相交，与二值之和最小矛盾。
接下来证明：使用 $l_1$ -norm，目标函数最小时为什么分量容易等于0？

简化问题， $w$ 是一个一维向量，那么目标函数为 $min_w f(w)+C|w|$ ，其中系数 $C > 0$
若要w=0为极值点使目标函数最小，则必要条件是 $w$ 两边关于目标函数的导数要异号即 $(f^{'} (0) - C) (f^{'} (0) + C) < 0$ ，
推出当 $C > ∣ f^{'} (0) ∣$ 时， $w = 0$ 就有可能是目标函数的极小点