正则化
正则化可理解为一种“罚函数法”,即对不希望得到的结果施加惩罚,从而使得优化过程趋向于希望目标
从贝叶斯估计的角度来看,正则化项可认为是提供了模型的先验概率
为什么加正则化项可以防止过拟合?
从数学的角度来说,加正则化项就相当于加约束条件,加了约束条件使很多的参数分量 w i = 0 w_i=0 wi=0(相当于特征选择)从而降低模型复杂度,也就是防止因为参数过多导致的过拟合现象
机器学习内容
L p L_p Lp范数 ( n o r m ) (norm) (norm)
L p L_p Lp范数 ( n o r m ) (norm) (norm)是常用的正则化项,其中 L 2 L_2 L2范数 ∣ ∣ \mid\mid ∣∣ w 2 w_2 w2 ∣ ∣ \mid\mid ∣∣倾向于 w ⃗ \vec w w的分量取值尽量均衡,即非零分量个数尽量稠密,而 L 0 L_0 L0范数 ∣ ∣ \mid\mid ∣∣ w 0 w_0 w0 ∣ ∣ \mid\mid ∣∣和 L 1 L_1 L1范数 ∣ ∣ \mid\mid ∣∣ w 1 w_1 w1 ∣ ∣ \mid\mid ∣∣则倾向于 w w w的分量尽量稀疏,即非零向量个数尽量少。
与闵可夫斯基距离的定义一样, L p L_p Lp范数不是一个范数,而是一组范数,其定义如下:
———————————————————————————————————
L p = p ∑ i = 1 n x i p ( x = x 1 , x 2 , . . . , x n ) L_p=p\sqrt {\sum_{i=1}^{n}{x_i^p}} \space\space (x = x_1,x_2,...,x_n) Lp=pi=1∑nxip (x=x1,x2,...,xn)
———————————————————————————————————
L 0 L_0 L0范数
当 p = 0 p=0 p=