粗读论文阶段(一)Riemannian approach to batch normalization
粗读论文阶段(一)Riemannian approach to batch normalizationcitearXiv:1709.09603v3 [cs.LG]motivation已有方法的不足:BN的作者证明了将BN应用于某层,使其前向传递对于权重参数的线性变换保持不变。虽然这种特性可以通过减小较大权重的梯度来稳定参数增长,但它也可能对优化产生不利影响,因为可能存在无限多个具有相同正向传递但不同缩放比例的网络,它们可能会在不同的梯度下收敛到不同的局部最优(不是特别明白)。在实践中,网络可能对正则
原创
2020-08-09 15:52:11 ·
329 阅读 ·
0 评论