- 博客(1)
- 收藏
- 关注
原创 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
BN要解决什么问题? 普通的SGD 学习速度慢,主要是因为1,艰难地调参(初始化)2.只能用比较小的learning rate 3.容易陷入gradient vanish的问题中 btw. 3是2的部分原因(2的另一部分原因是grad的方向曲曲折折走了很多相互抵消的“路”),3更大的问题learning 会停在local minima就不动了,没找到global minima。 p
2017-01-28 13:59:30 517 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人