论初始值的重要性-仅仅是更改初始值loss差别就非常大

最新推荐文章于 2023-10-11 21:13:27 发布

Takoony

最新推荐文章于 2023-10-11 21:13:27 发布

阅读量3.5k

点赞数 1

分类专栏： deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ningyanggege/article/details/83381457

版权

deep learning 专栏收录该内容

166 篇文章 17 订阅

订阅专栏

先来看个案例：

图片中0.01系数去掉的效果：

损失值非常高，直到训练110次的损失值仍然有0.75，而且推荐效果很不好；

有了0.01后，

训练第二次的时候就比上面训练最好的效果好很多；推荐效果也是杠杠的；

结论：初始值非常重要；

数据集放大100倍，训练次数5000次左右：

初始误差也是8左右

参数乘以0.01后：初始误差0.8左右开始；

训练70次就可以达到上面训练5000次的效果；

训练130次左右，效果远好于第一种情况；

再看basis的作用，去掉basis后的效果：

结论：初始化极其重要，weights乘以0.01，去掉basis后，效果增加极其明显；

研究的动机：新建的架构，训练初始值就是从0.008开始的，数据什么都一样，但损失值相差这么大，无法相信，通过这一系列研究后，发现一切都是对的，就是因为无意之间乘以0.01和去掉了 basis的结果；

提问：什么的情况下，weight越小越好，什么情况下要basis结果会较好呢？
个人猜想：假设存在一套完美的参数，当然是越接近越好，不存在越大越好或越小越好这种片面的结论；完美的情况中存在着这这样的偏置项，那么就需要，否则就不需要；

在实践中，可以慢慢尝试，然后选择合适的参数，比如每种情况设置好，训练个100次，看哪种结果比较好，然后定下来继续后面的研究；

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。