CNN调参笔记

本文探讨了CNN在训练过程中的参数初始化,特别是卷积层权重和偏置的影响。通过实验发现,过大的偏置会导致网络收敛困难,而适中的初始化如 Bias=0.1, weight stddev=0.1 可以加速收敛。此外,学习率设置过高也会导致无法收敛。最后,作者通过案例分析了BN层顺序对网络收敛性的影响,特别是在图像反色情况下的表现。" 82915374,5629485,CocosCreator微信小游戏物理引擎与地图场景实战,"['Cocos2d-x', '游戏开发', '移动开发', '2D游戏', '物理引擎']
摘要由CSDN通过智能技术生成

一、卷积层weight和bias初始化(Mnist)

weight的mean为0,标准差待定,bias为常数,待定。

 (1)Bias初始化太大(比如0.5,weight std=0.01),则网络loss初始非常大,即使加了BN层使得Loss减小,亦难以收敛。

         我猜测是Bias太大,其在与Feature Map的博弈中,占了绝对上方,特别是多层网络,原始图的特征逐层递减直至消失。

 (2)Bias和weigh较小(比如Bias=0.0,  weight stddev=0.01),网络可以收敛,但收敛较慢

 (3)Mnist图片反色(即foreground像素值在0这一端,background在255这一端)后收敛速度下降较大(目测2~3倍)。

 (4)Bias=0.1 ,weight stddev=0.1 网络收敛较快。但

看了xavier和he_normal两篇论文,主要是保证feedforward/backpropagation的梯度在传递过程中,每一层分布不变(均值+方差)。

感觉无脑用就好了。(不过测试时,7、8层的网络使用xavier/he_normal效果并不比N(0,0.01))效果更好)


二、Learning Rate

  设置太大无法收敛,比如1e-2。

  ResNet中以0.1为初值训练不知怎么回事。

三、BN层顺序:一个不收敛的例子

当我们采用x->bn
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值