L1正则化有稀疏性,相当于进行特征选择;L2正则化
模型复杂度和参数向量有关,使某些参数为0
加了正则化项,变为结构风险最小化
要使W限制在一个范围内,变为不等式约束问题
不等式约束问题,利用KKT条件
加正则化项等价于带约束条件,向量被限制在范围内
2、为什么L1正则具有稀疏性?可做特征选择
1)从解空间形状看
目标损失函数,等值线图;交点取最佳参数
坐标轴上的点代表某一轴为0,可使某些参数为0
L1正则更容易在顶点取得最优解
2)从贝叶斯最大后验概率估计角度
L1正则中假设参数分布满足拉普拉斯分布
L2正则假设参数分布满足正态分布
由于拉普拉斯分布取0的概率大,因此L1具有稀疏性