切空间更新原理--Tangent-space gradient optimization of tensor network for machine learning

最新推荐文章于 2024-09-03 00:07:24 发布

取三千不取一瓢

最新推荐文章于 2024-09-03 00:07:24 发布

阅读量251

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcxyz11111/article/details/116531408

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

首先这篇论文的思路和前述是一致的，都是设计一个希尔伯特空间里的一个算子 $|\Psi>$ ，使得所有trainning set里的样本坍缩概率尽可能相等。

其次这篇文章的核心思想可以概括为，如果需要更新的参数（张量）满足一定的条件，那么他的梯度下降将非常顺利，很难出现梯度下降或者梯度爆炸的问题。这篇文章对梯度下降的优化部分在于对learning rate的控制（不同于主流的Adam方法）。

这里如果直接对 $|\Psi>$ 做梯度下降，将是一个指数复杂度，所以需要用MPS态展开，对其中每个分张量逐个做梯度下降：
在这里插入图片描述

这里对最后这个等式等于1做个简单说明，这个等式成立是基于13，14式：中心正则形式左右两边的分张量和各自的共轭张量满足正交条件。这样一来，我们把整个MPS态带进去和他的共轭转置形式做缩并（运算过程中，记得从最边上的分张量开始缩并，因为最边上的维度缩并不会影响到其他张量），最后就会得到最后的这个等式，所以只要写成这种中心正则形式，张量本身的范数就等于中心张量的范数。

下面讲讲如何对中心张量进行更新，写成中心正则形式后，满足下面的等式：
在这里插入图片描述
进一步可以证明，中心张量也满足这样的正交形式：

由于中心张量满足正交形式，那么learning rate（中心张量的梯度的范数）可以由旋转角度 $\theta$ 唯一控制（中心张量本身范数也是1），所以我们可以通过调节 $\theta$ 来控制学习率。

旋转角度 $\theta$ 图示：
在这里插入图片描述
这篇文章看完我其实还是有一些疑问（感兴趣的可以自己去看看这篇文章）：

他利用gauge transformation方法来转移正交中心，按照我的理解，整体的张量确实不会变，但是原来的中心张量发生了改变，这对分张量的梯度下降会不会有影响？
虽然有数据展示，但是我其实还是不太能理解为什么learning rate写成 $tan(\theta)$ 会减少梯度下降和梯度爆炸的可能性？

取三千不取一瓢

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。