正则化就是结构风险最小化策略的实现,是在经验风险最小化的情况下加入一个正则化项或者罚项。经验风险最小化策略在小数据集下是不可靠的容易产生过拟合,这时就需要结构风险策略。
1 L1正则化
L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为 ∣ ∣ w ∣ ∣ 1 ||w||_1 ∣∣w∣∣1。它可以防止过拟合,并且可以产生一个稀疏权值矩阵,可以用于特征选择。L1假设数据服从拉普拉斯分布。
1.1 为什么L1正则化会导致稀疏性
https://blog.csdn.net/f156207495/article/details/82794151
个人解释(不做公式推导,不保证正确,仅仅从简单理解的角度去说明):带有正则化的loss函数记为
J
(
w
)
=
L
(
w
)
+
h
(
w
)
J(w)=L(w)+h(w)
J(w)=L(w)+h(w),其中
L
(
w
)
L(w)
L(w)为原始的损失函数,
h
(
w
)
h(w)
h(w)为L1正则项,此时的
J
(
w
)
J(w)
J(w)可以看做有约束的优化问题,
h
(
w
)
h(w)
h(w)就是这个约束条件。此时的w就需要满足找到一个w使得
L
(
w
)
L(w)
L(w),同时也要满足在
h
(
w
)
h(w)
h(w)的范围内,因此这时就需要找两个函数(第一次)的交点。选择第一次的交点的原因是,这个点既满足在
h
(
w
)
h(w)
h(w)的约束下,有尽可能满足
L
(
w
)
L(w)
L(w)最小。
1.2 如何解决L1正则化在0处不可导
https://www.cnblogs.com/zzqingwenn/p/10874522.html
2 L2正则化
L2正则化是指权值向量w中各个元素的平方和然后再求平方根,通常表示为 ∣ ∣ w ∣ ∣ 2 ||w||_2 ∣∣w∣∣2。L2假设数据服从高斯分布。
3 L0正则化
L0正则化是指权值向量中非0的元素的个数。