1.参数衰减和稀疏性
参数衰减,带来的好处是:通常来讲数据都具有一定波动性,减弱每个参数,防止某些参数过大,可以减弱数据varience带来的影响,防止过拟合,提高泛化能力。
稀疏性,带来好处是:1)大幅减少计算;2)减少参数,防止过拟合,提高泛化能力
2.l1和l2两种正则化
1l可以带来参数衰减和稀疏性,l2只能带来参数衰减。(l1和l2这两种特性是建立在凸优化基础之上,关于lr+正则的凸优化证明见:http://qwone.com/~jason/writing/convexLR.pdf)
下图解释:l1可以通过尖峰使得最小值在w=0处,而l2只能是最小值靠近w=0处。
代码:
#encoding=utf-8