正则化的作用:
在损失函数后面加上一项关于参数w的正则化函数,由于惩罚因子的存在,使得w减小,当输入x变化时,由于w很小,所以整体的输出y波动很小,使得输出图像变平滑,提高了系统的稳定性和抗干扰能力。
正则化参数的调整:
由上图可知,当惩罚因子 增大时,训练集上的损失增大,原因是:当惩罚因子变大时,对于损失函数中正则项所占的比例变大,在优化过程中过于追求w的减小,使得原本的损失值变大。但是如果惩罚因子选取合适时,在测试集上的效果较好。
L1与L2正则化:
L1范数是指向量中各个元素绝对值之和,L2范数是指向量各元素的平方和然后求平方根。
L1正则化使得w变成稀疏矩阵而L2使得w普遍变小,但不会变成稀疏矩阵。原因为:将正则项看作损失函数的约束项,分别绘制损失函数与约束项关于参数w的图像,只有满足约束条件(即正则项)要求的参数w才是最终的值,由下图可知,加入L1正则项后,满足条件的参数w都在顶点处选取,因此得到的w中0偏多,而L2正则项与损失函数的交点一般不会在顶点处,得到的w不是稀疏矩阵。因此L1正则化在特征选择时比较有用,而L2是一种规则化。
L2正则化的优势:
加入L2正则项,使得参数w普遍变小,但不为0,对于解决condition number(样本数小于样本维度)不好的情况下求解逆矩阵困难的问题有帮助。