CNN调参笔记

最新推荐文章于 2024-07-07 20:18:25 发布

vcvycy

最新推荐文章于 2024-07-07 20:18:25 发布

阅读量822

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vcvycy/article/details/78639929

版权

本文探讨了CNN在训练过程中的参数初始化，特别是卷积层权重和偏置的影响。通过实验发现，过大的偏置会导致网络收敛困难，而适中的初始化如 Bias=0.1, weight stddev=0.1 可以加速收敛。此外，学习率设置过高也会导致无法收敛。最后，作者通过案例分析了BN层顺序对网络收敛性的影响，特别是在图像反色情况下的表现。" 82915374,5629485,CocosCreator微信小游戏物理引擎与地图场景实战,"['Cocos2d-x', '游戏开发', '移动开发', '2D游戏', '物理引擎']

摘要由CSDN通过智能技术生成

一、卷积层weight和bias初始化(Mnist)

weight的mean为0，标准差待定，bias为常数，待定。

（1）Bias初始化太大（比如0.5，weight std=0.01），则网络loss初始非常大，即使加了BN层使得Loss减小，亦难以收敛。

我猜测是Bias太大，其在与Feature Map的博弈中，占了绝对上方，特别是多层网络，原始图的特征逐层递减直至消失。

（2）Bias和weigh较小(比如Bias=0.0, weight stddev=0.01)，网络可以收敛，但收敛较慢

（3）Mnist图片反色（即foreground像素值在0这一端，background在255这一端）后收敛速度下降较大（目测2~3倍）。

（4）Bias=0.1 ,weight stddev=0.1 网络收敛较快。但

看了xavier和he_normal两篇论文，主要是保证feedforward/backpropagation的梯度在传递过程中，每一层分布不变(均值+方差)。

感觉无脑用就好了。(不过测试时，7、8层的网络使用xavier/he_normal效果并不比N(0,0.01))效果更好)

二、Learning Rate

设置太大无法收敛，比如1e-2。

ResNet中以0.1为初值训练不知怎么回事。

三、BN层顺序：一个不收敛的例子

当我们采用x->bn

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。