自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dwSun的博客

一个正经的IT工作者/非著名人工智能表演艺术家/非著名业余摄影爱好者

  • 博客(3)
  • 收藏
  • 关注

原创 1506.01186-Cyclical Learning Rates for Training Neural Networks

1506.01186-Cyclical Learning Rates for Training Neural Networks 1506.01186-Cyclical Learning Rates for Training Neural Networks论文中提出了一种循环调整学习率来训练模型的方式。如下图:通过循环的线性调整学习率,论文作者观察到的一种比较...

2018-07-30 21:13:00 377

原创 1503.02531-Distilling the Knowledge in a Neural Network.md

1503.02531-Distilling the Knowledge in a Neural Network.md 原来交叉熵还有一个tempature,这个tempature有如下的定义:\[q_i=\frac{e^{z_i/T}}{\sum_j{e^{z_j/T}}}\]其中T就是tempature,一般这个T取值就是1,如果提高:In [6]: ...

2018-07-11 23:06:00 340

原创 1804.03235-Large scale distributed neural network training through online distillation.md

1804.03235-Large scale distributed neural network training through online distillation.md 现有分布式模型训练的模式分布式SGD并行SGD: 大规模训练中,一次的最长时间取决于最慢的机器异步SGD: 不同步的数据,有可能导致权重更新向着未知方向并行多模型 :多个集...

2018-07-05 23:40:00 921

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除