我们在深度学习主要会用到的正则化是L1和L2正则,以及两者的一些融合变形。
L1和L2正则化的作用:
防止网络过拟合,网络更简单(给极端值惩罚),网络的泛化能力越强。
正则化的对象是网络的参数,在深度学习中就是网络的权重。L1正则是参数的绝对值求和,L2正则是参数的平方和。
使用方法:
在网络的损失函数中加入新的一项,将L1或者L2的值乘以一个系数。优化目标是最小化这一项。
L1和L2的对比:
L2在深度学习中用的比较多,它的作用使得网络权重更平滑,因此可以防止网络过拟合;
而L1正则化,使得权重更稀疏,即部分权重置0。
速度对比:在权重比较大的时候L2正则可能会更快,L1在较小时更快。(和Loss值大小相关)
两者的融合:
可以同时使用L1和L2正则,最简单的方式就是两者相加;也可以使得平方和开根号,就是两者的另一种变形融合。