炼丹的一些Tricks(慢慢总结版)

本文地址:https://blog.csdn.net/shanglianlm/article/details/84821891

  1. batch size 较小
一般情况下,我们在训练的时候,
a.在训练时所有BN层要设置use_global_stats: false(也可以不写,caffe默认是false) 
b.在测试时所有BN层要设置use_global_stats: true
如果batch size较小,如为1,可以考虑在fine-tune的时候,将use_global_stats: true试试。

use_global_stats: false是使用了每个Batch里的数据的均值和方差;
use_global_stats: true是使用了所有数据的均值和方差。

  1. caffe 下与loss相关的一些说明:
- train loss 不断下降,test loss 不断下降,说明网络正在学习
- train loss 不断下降,test loss 趋于不变,说明网络过拟合
- train loss 趋于不变,test loss 趋于不变,说明学习遇到瓶颈,需要减小学习率或者批处理大小
- train loss 趋于不变,test loss 不断下降,说明数据集100%有问题
- train loss 不断上升,test loss 不断上升(最终变为NaN),可能是网络结构设计不当,训练超参数设置不当,程序bug等某个问题引起
- train loss 不断上下跳动,可能引起的原因:学习率过大,或者批处理大小太小

https://blog.csdn.net/sinat_26917383/article/details/54232791
https://blog.csdn.net/arielkid/article/details/84850255
https://www.cnblogs.com/shixiangwan/p/9015010.html

参考:
1 关于训练神经网路的诸多技巧Trickshttps://oldpan.me/archives/how-to-use-tricks-to-train-network
2 深度学习炼丹师的养成之路之——Batch size/Epoch/Learning Rate的设置和学习策略https://blog.csdn.net/qiusuoxiaozi/article/details/78456544
3 如何理解深度学习分布式训练中的large batch size与learning rate的关系?https://www.zhihu.com/question/64134994
4 Using Learning Rate Schedules for Deep Learning Models in Python with Kerashttps://machinelearningmastery.com/using-learning-rate-schedules-deep-learning-models-python-keras/
5 深度学习参数调优杂记+caffe训练时的问题
6 caffe固定网络权重参数------遇到BatchNorm层和Scale层的时候https://blog.csdn.net/arielkid/article/details/84850255
7 综述:深度神经网络模型压缩和加速方法https://www.cnblogs.com/shixiangwan/p/9015010.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mingo_敏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值