L1与L2区别?L1为啥具有稀疏性?
范数正则化有两个作用?
1、保证模型尽可能简单、避免过拟合
2、约束模型特性,加入一些先验知识,例如稀疏、低秩
实现参数稀疏有什么好处?
简化模型,避免过拟合
参数值越小代表模型越简单么?
是的,因为参数值越小,说明模型月简单。因为模型越复杂,越是会对所有的样本进行拟合,甚至包括一些异常样本点。这样会有导数比较大的情景,所以参数值会出现很大的情况。
L1与L2区别?
L1范数是向量中各个元素的绝对值之和,叫稀疏规则算子;
L2范数是欧式距离,叫岭回归,也叫权值衰减;
L1为啥具有稀疏性?
1、数学公式
L
1
=
∣
w
1
∣
+
∣
w
2
∣
+
.
.
.
+
∣
w
n
∣
∂
L
1
∂
w
i
=
s
i
g
n
(
w
i
)
=
1
o
r
−
1
L1=|w_1|+|w_2|+...+|w_n| \ \ \ \frac{\partial L1}{\partial w_i}=sign(w_i)=1 \ or -1
L1=∣w1∣+∣w2∣+...+∣wn∣ ∂wi∂L1=sign(wi)=1 or−1
L
2
=
1
2
(
w
1
2
+
w
2
2
+
.
.
.
+
w
n
2
)
∂
L
2
∂
w
i
=
w
i
L2=\frac{1}{2}(w_1^2+w_2^2+...+w_n^2) \ \ \ \frac{\partial L2}{\partial w_i}=w_i
L2=21(w12+w22+...+wn2) ∂wi∂L2=wi
w
i
=
w
i
−
0.5
∗
1
w_i=w_i-0.5*1
wi=wi−0.5∗1L1的权值更新固定减小一个值,有可能会减小到0;
w
i
=
w
i
−
0.5
∗
w
i
w_i=w_i-0.5*wi
wi=wi−0.5∗wiL2的权值更新,每次减小上一次的1/2,权值会越来越小。