粗读论文阶段(一)Riemannian approach to batch normalization
cite
arXiv:1709.09603v3 [cs.LG]
motivation
已有方法的不足:BN的作者证明了将BN应用于某层,使其前向传递对于权重参数的线性变换保持不变。虽然这种特性可以通过减小较大权重的梯度来稳定参数增长,但它也可能对优化产生不利影响,因为可能存在无限多个具有相同正向传递但不同缩放比例的网络,它们可能会在不同的梯度下收敛到不同的局部最优(不是特别明白)。在实践中,网络可能对正则化方法(如权重衰减)的参数变得敏感。
作者的改进:优化过程中的这种模糊性可以通过将权重向量空间解释为黎曼流形来消除,在黎曼流形上,一个权重向量的所有裁剪的版本都对应流形上的一个点。一个适当选择的度量张量可以在流形上执行梯度下降[4,5],沿着梯度方向,同时保持在流形上。这种方法从根本上消除了上述模糊性,同时保持了方差特性不变,从而确保了稳定的权重更新。
work
把BN层的权重向量解释为一个黎曼流形,它对权重的线性缩放不变性。
具体工作:
- 为 batch normalization 中具有缩放不变性的权重矩阵w选择一个合适的流形和相应的黎曼度量(格拉斯曼流形)。
- 推导了在这个流形上执行梯度下降所需的算子(运算),这可以理解为单位球上的一个约束优化。
- 我们给出了两种优化算法-对应于动量和Adam的随机梯度下降(SGD)[9]算法。利用空间的几何特性,提出了直观的梯度裁剪方法。
- 我们给出了这些算法在带有BN层的网络中的应用,以及一种基于流形上的变分推理的正则化方法。实验表明,该算法在不同类型的网络结构和数据集上均优于原BN算法。