- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 总结整理《Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift》
1. Introduction 随机梯度下降(Stochastic Gradient Descent, SGD)是训练深度网络的有效方法,其变体包括momentum,Adagrad。其训练目标是通过最小化损失函数找到最优的网络参数: SGD训练多次迭代进行,每次只使用一个mini-batch,即从训练集中随机挑选m的训练样本组成一个mini-batch。优点有2: (1)mini-b
2017-01-27 10:33:29 496
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人