参数范数惩罚
L1 L2 regularization
正则化一般具有如下形式:(结构风险最小化)
其中,第一项是经验风险,第二项是正则化项,lambda>=0为调整两者之间关系的系数。
正则化项可以取不同的形式,如参数向量w的L2范数:
假设以平方差为损失函数,则优化目标为:
minw∑i=1m(yi−wTxi)2+λ||w||22
m
i
n
w
∑
i
=
1
m
(
y
i
−
w
T
x
i
)
2
+
λ
|
|
w
|
|
2
2
正则化项也可以是参数向量w的L1范数:
minw∑i=1m(yi−wTxi)2+λ||w||1
m
i
n
w
∑
i
=
1
m
(
y
i
−
w
T
x
i
)
2
+
λ
|
|
w
|
|
1
L1范数和L2范数都有助于降低过拟合风险,但前者还会代来一个额外的好处:它比厚泽更易获得“稀疏”(sparse)解,即它求得的w会有更少的非零向量。
数据集增强
噪声鲁棒性
Dropout
神经网络
early stopping
提升方法
神经网络
Bagging和其他集成方法
《统计学习方法》 1.5.1 P14
http://charleshm.github.io/2016/03/Regularized-Regression/
《深度学习》 7