关于正则惩罚L2 norm里w越小越好的一些另类思考

以下全是本博主一派胡言,把深度学习看成是一种乐趣,而不是压力,在探索中,发现了很多乐趣:

 

一,现在通常用的激励函数,在input比较大的时候,不饱和,也就是分类效果好,而在input比较大的地方趋于饱和。w越小,就意味着input = wx+b比较小,也就是落在不饱和区的可能性更大,也就是更接近于线性。

 

 

二,黑色的直线显然比紫色的线泛华能力更好,黑色直线的w要小于紫色线的斜率。对于这种多分段的一个直观的激励函数就是maxout。这里其实也解释了为什么要w的平方,很明显有正有负吗。当然,用w的平方,使得导数里有w,也就是w越大,梯度越大,下降的越快。

 

可以联系SVM,SVM的目标函数就是w的L2 norm,约束条件反倒是y(wx+b)>=1,但是拉格朗日函数却是惊人的相似,只是目标函数变成了约束条件,约束条件变成了目标函数。 SVM就是要求||w||最小,其实也对应着一个对泛化能力的追求。而深度学习力的w的L2 norm越小,又可以类比于SVM的分类间隔最大。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值