范数和正则化

我是一个对称矩阵

于 2021-09-11 17:12:22 发布

阅读量623

点赞数

分类专栏：深度学习DL 文章标签：线性代数深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40243750/article/details/120239165

版权

深度学习DL 专栏收录该内容

18 篇文章 11 订阅

订阅专栏

1. 范数

在深度学习中常见 $L_1$ 范数、 $L_2$ 范数，那么关于范数的数学形式定义：
在这里插入图片描述
几种常见的范数：

$L_1$ 范数，即 $p = 1$ 时，此时 $x||=Σ|x_i|$ ，直观上就是 $x$ 的绝对值和
$L_2$ 范数，即 $p = 2$ 时，此时 $x||=(Σ|x_i|^2)^{1/2}$ ，也称欧几里得范数，直观上就是 $x$ 的平方和的开方，几何意义为从原点出发到向量 $x$ 的欧几里得距离。那么这是数学定义，在实际使用 $L_2$ 范数我们更多使用平方 $L_2$ 范数，因为是否开平方不影响其性质，但是不开平方对计算机运算却十分友好。

	平方 $L_2$ 范数	$L_1$ 范数
求导	对 $x_i$ 求导时，只与 $x_i$ 有关，十分简便	线性，对任意 $x_i$ 求导，结果=1
增长(0<x<1)	增长缓慢(此时对x平方只会更小)	增长块(因为是线性的)
增长(1<x)	增长快	增长缓慢

综上，当我们区分0元素和非零但值很小的元素是是很重要时，往往选择 $L_1$ 范数，当其中某元素变化▲c时，结果也变化▲c。

$L^∞$ 范数，也称最大范数，定义为： $x||_∞=max|x_i|$ ，即向量 $x$ 中最大幅值元素的绝对值
Frobenius范数，通常用来衡量矩阵的大小，公式表示为： $||A||_F=(Σ_{i,j}A^2_{i,j})^{1/2}$ ，即所有元素平方和的开放，你会发现这个定义其实和 $L_2$ 范数一样，只是一个是针对向量的，一个是针对矩阵的

2. 正则化

正则化从名字来看有些难以理解，正则化英文为：regularization，翻译为“规则化”，这样好理解一点。规则化就是制定规则，添加限制。我们说权重正则化，就是给权重添加限制；dropout正则化，就是给dropout添加限制；范数正则化不是给范数添加限制，而是说给网络添加的限制是范数。比如 $L_2$ 正则化，这是一个网络的成本函数：
在这里插入图片描述
添加 $L_2$ 范数正则化，也即添加 $L_2$ 范数限制：

$W||^2$ 就是平方 $L_2$ 范数，是m个元素的平方和，所以公式中除以m，进行均值化(不均值化那么m=100和m=50，平方和差异很大；均值化后无论m=x，差异都不算大)
分母中的2显然是为了对Cost求导后，消除 $∣ ∣ W ∣ ∣$ 的平方；所以任何看似无头脑的公式设计都有其原因
λ超参数，可以理解为对这个范数限制进行权重的控制，否则你无法控制这个范数对Cost的影响

3. 为什么正则化可以解决过拟合问题？

接着上面的Cost来看，现在我们尝试更新权重W，我们假设开始cost为cost1，加了范数正则化的cost为cost2，那么：
对于cost1： $d W = A$
更新w： $W 1 = W - l r * d W$
对于cost2：
$dW=A+\frac{λ}{m}||W||$
更新w： $W 2 = W - l r * d W$
明显加了正则化的 $d W$ 更大，更新w时下降更快，所以 $L_2正则化$ 也称为权重衰减，是 $L_2正则化$ 的独特buff。

那么为什么加了正则化，可以结果过拟合问题？
我们知道 $L_2正则化$ 可以使权重变得更小，更小意味这神经元的作用更小，那么把网络比作一个大脑，加了 $L_2正则化$ 的大脑中的神经细胞更傻了，那么网络变得更没用了，当然就解决了过拟合的问题

4. λ的选择问题

我们知道λ是 $L_2$ 正则化的超参数，决定 $L_2$ 范数正则化的影响力。

那么当λ比较大时，从3中可以看出，每次 $d W$ 会下降很快，这样网路会变得很傻，这将面临欠拟合问题。
当λ比较小的，假设极端情况λ接近0，从3中可以看出， $L_2$ 正则化对Cost没有影响了，其作用被忽视了，那么无法使得网络变傻，网络回到最初的状态，变得可能陷入过拟合。

我是一个对称矩阵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
范数和正则化

1. 范数在深度学习中常见L1L_1L1范数、L2L_2L2范数，那么关于范数的数学形式定义：几种常见的范数：L1L_1L1范数，即p=1p=1p=1时，此时 ∣∣x∣∣=Σ∣xi∣||x||=Σ|x_i|∣∣x∣∣=Σ∣xi∣，直观上就是xxx的绝对值和L2L_2L2范数，即p=2p=2p=2时，此时∣∣x∣∣=(Σ∣xi∣2)1/2||x||=(Σ|x_i|^2)^{1/2}∣∣x∣∣=(Σ∣xi∣2)1/2，也称欧几里得范数，直观上就是xxx的平方和的开方，几何意义为从原点出发
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我是一个对称矩阵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。