cayley变换

Cayley变换是一个近年来常用于将神经网络中线性操作的矩阵替换成正交/酉矩阵的一个操作。

正交/酉矩阵的性质 

保范性

在深度学习中最重要的一点是保范性,即\Vert W \mathbf{x} \Vert_2=\Vert \mathbf{x} \Vert_2

证明过程:\Vert W \mathbf{x} \Vert_2 =(W\mathbf{x})^H (W \mathbf{x})=\mathbf{x} ^HW^H W \mathbf{x}=\mathbf{x}^H \mathbf{x}=\Vert \mathbf{x} \Vert_2

实特征值取值范围为\pm 1

 我们知道,如果\lambda是矩阵W的实特征值,那么就有其对应的实特征向量(非\mathbf{0}\mathbf{x},满足\lambda \mathbf{x} = W \mathbf{x}

分别用等号两边的向量做内积:

<\lambda \mathbf{x}, \lambda \mathbf{x}>=\lambda^2 <\mathbf{x},\mathbf{x}>

<W \mathbf{x}, W\mathbf{x}> = (W\mathbf{x})^T W\mathbf{x}=\mathbf{x}^T W^T W \mathbf{x} = \mathbf{x}^T \mathbf{x}=<\mathbf{x},\mathbf{x}>

因为在实数域,\mathbf{x}^T\mathbf{x}\neq \mathbf{0}

所以我们知道:\lambda^2=1,解得\lambda=\pm 1

 何谓Cayley变换

W=(I+A)^{-1}(I-A), A=(I+W)^{-1}(I-W), 其中的A是所谓的斜对称矩阵,即满足A^T=-A

证明W是正交矩阵: 

\begin{aligned} W^T W &=((I+A)^{-1}(I-A))^T (I+A)^{-1}(I-A)\\ &=(I+A)(I-A)^{-1}(I+A)^{-1}(I-A)\\ &=(I+A)((I+A)(I-A))^{-1}(I-A)\\ &=(I+A)((I-A)(I+A))^{-1}(I-A)\\ &=(I+A)(I+A)^{-1}(I-A)^{-1}(I-A)\\ &=I \end{aligned}

反之亦可证明。证明过程中最巧妙的一步就是(I-A)(I+A)=(I+A)(I-A) 

那我们如何获得双向映射中的第二条(由W求A)呢?

由第一条得:

\begin{aligned} (I+A)W&=(I-A)\\ W+AW&=I-A\\ A(W+I)&=(I-W)\\ A&=(I-W)(I+W)^{-1}\\ A&=(I+W)^{-1}(I-W) \end{aligned}

但是,通过Cayley变换,我们不能获得特征值为-1的正交/酉矩阵。为什么呢?

先写下我的猜想:

假设通过Cayley变换,我们获得的矩阵W存在特征值\lambda=-1的情况,其对应的特征向量为\mathbf{y}。那么,我们就有\lambda \mathbf{y} = W \mathbf{y}

当矩阵可逆时,它必然没有特征值为0。但(I+W)\mathbf{y}=\mathbf{y}+W\mathbf{y}=\mathbf{y}-\mathbf{y}=\mathbf{0},解得\lambda=0,说明(I+W)不可逆。既然无法完成双射,那么这种情况自然Cayley变换就做不到了!

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值