正则化来降低模型复杂度、防止参数过大,来提高泛化能力。结构化风险用参数范数惩罚Ω(θ),用来限制模型的学习能力、通过防止过拟合来提高泛化能力。所以总的损失函数(也叫目标函数)为:
α∈[0,+∞]是用来调整参数范数惩罚与经验损失的相对贡献的超参数,当α=0时表示没有正则化,α越大对应该的正则化惩罚就越大。而对于L1正则化:
对于L0,L2正则化则下标相应变成0或2。
注:通俗意义来讲,0范数零参数参数的个数,1范数为各参数绝对值之和,2范数维各参数平方和的开方值
摘自:由下边两篇博客整理而成
https://www.cnblogs.com/heguanyou/archive/2017/09/23/7582578.html
http://blog.csdn.net/vividonly/article/details/50723852