总结整理《Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift》
1. Introduction
随机梯度下降(Stochastic Gradient Descent, SGD)是训练深度网络的有效方法,其变体包括momentum,Adagrad。其训练目标是通过最小化损失函数找到最优的网络参数:
SGD训练多次迭代进行,每次只使用一个mini-batch,即从训练集中随机挑选m的训练样本组成一个mini-batch。优点有2:
(1)mini-b
原创
2017-01-27 10:33:29 ·
516 阅读 ·
0 评论