1.用caffemodel接着训练
训练squeezenet,第一版训了7000次,学习率0.01,感觉没有收敛,就用了最后得模型再开始训,第二次训练时发现学习率为初始化的值不是结束时得值,再训练过程中开始导致训练的acc降低,震荡较大。可能与学习率较大有关。学习率太大难收敛,太小收敛慢或者梯度消失无法学习。
batchsize太小易震荡,因为改变参数快,太大显卡遭不住,取数据慢!!
2.合适的范围内,学习率较大比较好,说明学习的东西要多一点,效果也要好一点。
初始值:学习率策略poly时,学习率初始0.001训练中收敛较快,后面学习效果几乎为0,到后面学习率在e-5左右,但效果不如初始大点儿的0.01。
策略:不比较每个策略的好坏,只从step为例,无论改变gamma值,即每次更改时的系数,还是改变stepsize,只要是使得学习率下降的慢一点的效果要好一点。