首先这篇论文的思路和前述是一致的,都是设计一个希尔伯特空间里的一个算子 ∣ Ψ > |\Psi> ∣Ψ>,使得所有trainning set里的样本坍缩概率尽可能相等。
其次这篇文章的核心思想可以概括为,如果需要更新的参数(张量)满足一定的条件,那么他的梯度下降将非常顺利,很难出现梯度下降或者梯度爆炸的问题。这篇文章对梯度下降的优化部分在于对learning rate的控制(不同于主流的Adam方法)。
这里如果直接对
∣
Ψ
>
|\Psi>
∣Ψ>做梯度下降,将是一个指数复杂度,所以需要用MPS态展开,对其中每个分张量逐个做梯度下降:
这里对最后这个等式等于1做个简单说明,这个等式成立是基于13,14式:中心正则形式左右两边的分张量和各自的共轭张量满足正交条件。这样一来,我们把整个MPS态带进去和他的共轭转置形式做缩并(运算过程中,记得从最边上的分张量开始缩并,因为最边上的维度缩并不会影响到其他张量),最后就会得到最后的这个等式,所以只要写成这种中心正则形式,张量本身的范数就等于中心张量的范数。
下面讲讲如何对中心张量进行更新,写成中心正则形式后,满足下面的等式:
进一步可以证明,中心张量也满足这样的正交形式:
由于中心张量满足正交形式,那么learning rate(中心张量的梯度的范数)可以由旋转角度
θ
\theta
θ唯一控制(中心张量本身范数也是1),所以我们可以通过调节
θ
\theta
θ来控制学习率。
旋转角度
θ
\theta
θ图示:
这篇文章看完我其实还是有一些疑问(感兴趣的可以自己去看看这篇文章):
- 他利用gauge transformation方法来转移正交中心,按照我的理解,整体的张量确实不会变,但是原来的中心张量发生了改变,这对分张量的梯度下降会不会有影响?
- 虽然有数据展示,但是我其实还是不太能理解为什么learning rate写成 t a n ( θ ) tan(\theta) tan(θ)会减少梯度下降和梯度爆炸的可能性?