关于正则惩罚L2 norm里w越小越好的一些另类思考

最新推荐文章于 2024-04-01 11:40:02 发布

becgiggs

最新推荐文章于 2024-04-01 11:40:02 发布

阅读量777

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/becgiggs/article/details/82988776

版权

机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

以下全是本博主一派胡言，把深度学习看成是一种乐趣，而不是压力，在探索中，发现了很多乐趣：

一，现在通常用的激励函数，在input比较大的时候，不饱和，也就是分类效果好，而在input比较大的地方趋于饱和。w越小，就意味着input = wx+b比较小，也就是落在不饱和区的可能性更大，也就是更接近于线性。

二，黑色的直线显然比紫色的线泛华能力更好，黑色直线的w要小于紫色线的斜率。对于这种多分段的一个直观的激励函数就是maxout。这里其实也解释了为什么要w的平方，很明显有正有负吗。当然，用w的平方，使得导数里有w，也就是w越大，梯度越大，下降的越快。

可以联系SVM，SVM的目标函数就是w的L2 norm，约束条件反倒是y(wx+b)>=1，但是拉格朗日函数却是惊人的相似，只是目标函数变成了约束条件，约束条件变成了目标函数。 SVM就是要求||w||最小，其实也对应着一个对泛化能力的追求。而深度学习力的w的L2 norm越小，又可以类比于SVM的分类间隔最大。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于正则惩罚L2 norm里w越小越好的一些另类思考

以下全是本博主一派胡言，把深度学习看成是一种乐趣，而不是压力，在探索中，发现了很多乐趣：一，现在通常用的激励函数，在input比较大的时候，不饱和，也就是分类效果好，而在input比较大的地方趋于饱和。w越小，就意味着input = wx+b比较小，也就是落在不饱和区的可能性更大，也就是更接近于线性。二，黑色的直线显然比紫色的线泛华能力更好，黑色直线的w要小于紫色线的斜率...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。