LR推导
1. 公式推导
2. 正则化
L1范数:是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
一个关键原因在于它能实现 特征的自动选择。一般来说,大部分特征 xi和输出 yi之间并没有多大关系。在最小化目标函数的时候考虑到这些额外的特征 xi,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会干扰了对正确 yi 的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。
L2范数:它有两个美称,在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减”(weight decay)。
它的强大之处就是它能 解决过拟合 问题。我们让 L2范数的规则项 ||w||2 最小,可以使得 w 的每个元素都很小,都接近于0,但与 ** L1**范数不同,它不会让它等于0,而是接近于0,这里还是有很大区别的。
L1