参考:https://blog.csdn.net/speargod/article/details/80233619
https://www.cnblogs.com/wuliytTaotao/archive/2019/05/11/10837533.html
一 .正则化的目的:
1. 过拟合现象:
如图,在线性回归中。图一中,使用一条直线进行数据的拟合,但是这个模型并没有很好的拟合数据,产生很大的偏差。这种现象称为欠拟合。
图二中,使用一个二次函数进行拟合,得到很好的拟合结果。
图三中,使用更高阶的多项式进行拟合,这个模型通过了所有的训练数据,使代价函数 约等于0甚至等于0。但是这是一条极度不规律扭曲的曲线,它并不是一个好的模型。
过拟合现象:如果我们使用高阶多项式,变量(特征)过多,那么这个函数能够很好的拟合训练集,但是却会无法泛化到新的数据样本中(泛化:一个假设模型能够应用到新样本的能力)。
当存在较多的变量,较少的训练数据,使得没有足够的训练集来约束这个变量过多的模型,就会导致过拟合的现象。
线性回归——最小二乘
线性回归(linear regression),就是用线性函数 f(x)=w⊤x+bf(x)=w⊤x+b 去拟合一组数据 D={(x1,y1),(x2,y2),...,(xn,yn)}D={(x1,y1),(x2,y2),...,(xn,yn)} 并使得损失 J=1n∑ni=1(f(xi)−yi)2J=1n∑i=1n(f(xi)−yi)2 最小。线性回归的目标就是找到一组 (w∗,b∗)(w∗,b∗),使得损失 JJ 最小。
线性回归的拟合函数(或 hypothesis)为:
f(x)=w⊤x+b(1)(1)f(x)=w⊤x+b
cost function (mse) 为:
J=1n∑i=1n(f(xi)−yi)2=1n∑i=1n(w⊤xi+b−yi)2(2)(2)J=1n∑i=1n(f(xi)−yi)2=1n∑i=1n(w⊤xi+b−yi)2
Lasso回归和岭回归
Lasso 回归和岭回归(ridge regression)都是在标准线性回归的基础上修改 cost function,即修改式(2),其它地方不变。
Lasso 的全称为 least absolute shrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法。
Lasso 回归对式(2)加入 L1 正则化,其 cost function 如下:
J=1n∑i=1n(f(xi)−yi)2+λ∥w∥1(3)(3)J=1n∑i=1n(f(xi)−yi)2+λ‖w‖1
岭回归对式(2)加入 L2 正则化,其 cost function 如下:
J=1n∑i=1n(f(xi)−yi)2+λ∥w∥22(4)(4)J=1n∑i=1n(f(xi)−yi)2+λ‖w‖22
Lasso回归和岭回归的同和异:
- 相同:
- 都可以用来解决标准线性回归的过拟合问题。
- 不同:
- lasso 可以用来做 feature selection,而 ridge 不行。或者说,lasso 更容易使得权重变为 0,而 ridge 更容易使得权重接近 0。
- 从贝叶斯角度看,lasso(L1 正则)等价于参数 ww 的先验概率分布满足拉普拉斯分布,而 ridge(L2 正则)等价于参数 ww 的先验概率分布满足高斯分布。具体参考博客 从贝叶斯角度深入理解正则化 -- Zxdon 。