caffe 训练模型心得

最新推荐文章于 2023-04-08 10:25:19 发布

小白不畏难

最新推荐文章于 2023-04-08 10:25:19 发布

阅读量195

点赞数

分类专栏：模型训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38562676/article/details/100045362

版权

模型训练专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.用caffemodel接着训练

训练squeezenet，第一版训了7000次，学习率0.01，感觉没有收敛，就用了最后得模型再开始训，第二次训练时发现学习率为初始化的值不是结束时得值，再训练过程中开始导致训练的acc降低，震荡较大。可能与学习率较大有关。学习率太大难收敛，太小收敛慢或者梯度消失无法学习。

batchsize太小易震荡，因为改变参数快，太大显卡遭不住，取数据慢！！

2.合适的范围内，学习率较大比较好，说明学习的东西要多一点，效果也要好一点。

初始值：学习率策略poly时，学习率初始0.001训练中收敛较快，后面学习效果几乎为0，到后面学习率在e-5左右，但效果不如初始大点儿的0.01。

策略：不比较每个策略的好坏，只从step为例，无论改变gamma值，即每次更改时的系数，还是改变stepsize，只要是使得学习率下降的慢一点的效果要好一点。

小白不畏难

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
caffe 训练模型心得

1.用caffemodel接着训练训练squeezenet，第一版训了7000次，学习率0.01，感觉没有收敛，就用了最后得模型再开始训，第二次训练时发现学习率为初始化的值不是结束时得值，再训练过程中开始导致训练的acc降低，震荡较大。可能与学习率较大有关。学习率太大难收敛，太小收敛慢或者梯度消失无法学习。batchsize太小易震荡，因为改变参数快，太大显卡遭不住，取数据慢！！2.合...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。