- 博客(3)
- 收藏
- 关注
原创 1506.01186-Cyclical Learning Rates for Training Neural Networks
1506.01186-Cyclical Learning Rates for Training Neural Networks 1506.01186-Cyclical Learning Rates for Training Neural Networks论文中提出了一种循环调整学习率来训练模型的方式。如下图:通过循环的线性调整学习率,论文作者观察到的一种比较...
2018-07-30 21:13:00 377
原创 1503.02531-Distilling the Knowledge in a Neural Network.md
1503.02531-Distilling the Knowledge in a Neural Network.md 原来交叉熵还有一个tempature,这个tempature有如下的定义:\[q_i=\frac{e^{z_i/T}}{\sum_j{e^{z_j/T}}}\]其中T就是tempature,一般这个T取值就是1,如果提高:In [6]: ...
2018-07-11 23:06:00 340
原创 1804.03235-Large scale distributed neural network training through online distillation.md
1804.03235-Large scale distributed neural network training through online distillation.md 现有分布式模型训练的模式分布式SGD并行SGD: 大规模训练中,一次的最长时间取决于最慢的机器异步SGD: 不同步的数据,有可能导致权重更新向着未知方向并行多模型 :多个集...
2018-07-05 23:40:00 921
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人