最近在研究姿态估计方面的内容。这个task数据量比较大,实验室的四路TITAN XP也只能用小batch运行,
并且要跑好几天(我在想原文是不是都是四路特斯拉跑的)。
为了克服设备的困难,最近关于学习率方面有一些心得。
我的调参哲学大概是先给一个特别大的学习率(大到模型只要不崩就行),跑一百多epoch,看一下大概什么位置比较好;
(跑的过程中可以存下效果top5的模型,用作后续的pre-train)
有了大概的了解之后,将学习率逐步进行decay,以对模型进行微调。
模型学习要先得到一个大方向,大方向对了才能谈小节,人生又何尝不是如此。
在此与猿友共勉,愿大家都能找到适合自己的那个gradient。