粗读论文阶段（一）Riemannian approach to batch normalization

最新推荐文章于 2024-07-29 00:03:11 发布

nicowin

最新推荐文章于 2024-07-29 00:03:11 发布

阅读量295

点赞数

分类专栏：流形学习论文粗读文章标签：几何学拓扑学神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40992795/article/details/107895118

版权

流形学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

粗读论文阶段（一）Riemannian approach to batch normalization

cite

arXiv:1709.09603v3 [cs.LG]

motivation

已有方法的不足：BN的作者证明了将BN应用于某层，使其前向传递对于权重参数的线性变换保持不变。虽然这种特性可以通过减小较大权重的梯度来稳定参数增长，但它也可能对优化产生不利影响，因为可能存在无限多个具有相同正向传递但不同缩放比例的网络，它们可能会在不同的梯度下收敛到不同的局部最优（不是特别明白）。在实践中，网络可能对正则化方法（如权重衰减）的参数变得敏感。

作者的改进：优化过程中的这种模糊性可以通过将权重向量空间解释为黎曼流形来消除，在黎曼流形上，一个权重向量的所有裁剪的版本都对应流形上的一个点。一个适当选择的度量张量可以在流形上执行梯度下降[4,5]，沿着梯度方向，同时保持在流形上。这种方法从根本上消除了上述模糊性，同时保持了方差特性不变，从而确保了稳定的权重更新。

work

把BN层的权重向量解释为一个黎曼流形，它对权重的线性缩放不变性。

具体工作：

为 batch normalization 中具有缩放不变性的权重矩阵w选择一个合适的流形和相应的黎曼度量（格拉斯曼流形）。
推导了在这个流形上执行梯度下降所需的算子（运算），这可以理解为单位球上的一个约束优化。
我们给出了两种优化算法-对应于动量和Adam的随机梯度下降（SGD）[9]算法。利用空间的几何特性，提出了直观的梯度裁剪方法。
我们给出了这些算法在带有BN层的网络中的应用，以及一种基于流形上的变分推理的正则化方法。实验表明，该算法在不同类型的网络结构和数据集上均优于原BN算法。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
粗读论文阶段（一）Riemannian approach to batch normalization

粗读论文阶段（一）Riemannian approach to batch normalizationcitearXiv:1709.09603v3 [cs.LG]motivation已有方法的不足：BN的作者证明了将BN应用于某层，使其前向传递对于权重参数的线性变换保持不变。虽然这种特性可以通过减小较大权重的梯度来稳定参数增长，但它也可能对优化产生不利影响，因为可能存在无限多个具有相同正向传递但不同缩放比例的网络，它们可能会在不同的梯度下收敛到不同的局部最优（不是特别明白）。在实践中，网络可能对正则
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。