lasso (least absolute shrinkage and selection operator)要是能把全称背下来你能一直记住LASSO的原理是absolute shrinkage以及它有selection的作用。
Lasso来自least squares models(最小二乘法线性回归)
①常规的线性回归的做法是最小化下面这个损失函数:
②Lasso回归的损失函数则多了一个对于回归系数的约束条件:
③岭回归(Ridge Regression)的损失函数也是添加了对于回归系数的约束条件:
Lasso回归加的是系数绝对值,而岭回归加的是系数的平方。
很显然,在损失函数中加入系数并附带限制条件会使最后的回归系数比最小二乘法回归得到的系数要小。
为什么LASSO回归能够进行变量选择(feature selection),而岭回归只能使系数接近零而不为零呢?
下面我举一个例子:
假设只有两个特征,X1和X2