切空间更新原理--Tangent-space gradient optimization of tensor network for machine learning

首先这篇论文的思路和前述是一致的,都是设计一个希尔伯特空间里的一个算子 ∣ Ψ > |\Psi> Ψ>,使得所有trainning set里的样本坍缩概率尽可能相等。

其次这篇文章的核心思想可以概括为,如果需要更新的参数(张量)满足一定的条件,那么他的梯度下降将非常顺利,很难出现梯度下降或者梯度爆炸的问题。这篇文章对梯度下降的优化部分在于对learning rate的控制(不同于主流的Adam方法)。

这里如果直接对 ∣ Ψ > |\Psi> Ψ>做梯度下降,将是一个指数复杂度,所以需要用MPS态展开,对其中每个分张量逐个做梯度下降:
在这里插入图片描述
在这里插入图片描述
这里对最后这个等式等于1做个简单说明,这个等式成立是基于13,14式:中心正则形式左右两边的分张量和各自的共轭张量满足正交条件。这样一来,我们把整个MPS态带进去和他的共轭转置形式做缩并(运算过程中,记得从最边上的分张量开始缩并,因为最边上的维度缩并不会影响到其他张量),最后就会得到最后的这个等式,所以只要写成这种中心正则形式,张量本身的范数就等于中心张量的范数。

下面讲讲如何对中心张量进行更新,写成中心正则形式后,满足下面的等式:
在这里插入图片描述
进一步可以证明,中心张量也满足这样的正交形式:
在这里插入图片描述
由于中心张量满足正交形式,那么learning rate(中心张量的梯度的范数)可以由旋转角度 θ \theta θ唯一控制(中心张量本身范数也是1),所以我们可以通过调节 θ \theta θ来控制学习率。

旋转角度 θ \theta θ图示:
在这里插入图片描述
这篇文章看完我其实还是有一些疑问(感兴趣的可以自己去看看这篇文章):

  • 他利用gauge transformation方法来转移正交中心,按照我的理解,整体的张量确实不会变,但是原来的中心张量发生了改变,这对分张量的梯度下降会不会有影响?
  • 虽然有数据展示,但是我其实还是不太能理解为什么learning rate写成 t a n ( θ ) tan(\theta) tan(θ)会减少梯度下降和梯度爆炸的可能性?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值