cayley变换

追影子的蛇

已于 2022-09-13 20:49:53 修改

阅读量1.2k

点赞数 3

分类专栏：数学文章标签：算法矩阵线性代数

于 2022-09-07 19:44:13 首次发布

本文链接：https://blog.csdn.net/qq_45821834/article/details/126747618

版权

数学专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Cayley变换是一个近年来常用于将神经网络中线性操作的矩阵替换成正交/酉矩阵的一个操作。

正交/酉矩阵的性质

保范性

在深度学习中最重要的一点是保范性，即 $\Vert W \mathbf{x} \Vert_2=\Vert \mathbf{x} \Vert_2$

证明过程： $\Vert W \mathbf{x} \Vert_2 =(W\mathbf{x})^H (W \mathbf{x})=\mathbf{x} ^HW^H W \mathbf{x}=\mathbf{x}^H \mathbf{x}=\Vert \mathbf{x} \Vert_2$

实特征值取值范围为 $\pm 1$

我们知道，如果 $\lambda$ 是矩阵W的实特征值，那么就有其对应的实特征向量（非 $\mathbf{0}$ ） $\mathbf{x}$ ，满足 $\lambda \mathbf{x} = W \mathbf{x}$

分别用等号两边的向量做内积：

$<\lambda \mathbf{x}, \lambda \mathbf{x}>=\lambda^2 <\mathbf{x},\mathbf{x}>$

$<W \mathbf{x}, W\mathbf{x}> = (W\mathbf{x})^T W\mathbf{x}=\mathbf{x}^T W^T W \mathbf{x} = \mathbf{x}^T \mathbf{x}=<\mathbf{x},\mathbf{x}>$

因为在实数域， $\mathbf{x}^T\mathbf{x}\neq \mathbf{0}$

所以我们知道： $\lambda^2=1$ ，解得 $\lambda=\pm 1$

何谓Cayley变换

$W=(I+A)^{-1}(I-A), A=(I+W)^{-1}(I-W)$ , 其中的A是所谓的斜对称矩阵，即满足 $A^T=-A$

证明W是正交矩阵：

$\begin{aligned} W^T W &=((I+A)^{-1}(I-A))^T (I+A)^{-1}(I-A)\\ &=(I+A)(I-A)^{-1}(I+A)^{-1}(I-A)\\ &=(I+A)((I+A)(I-A))^{-1}(I-A)\\ &=(I+A)((I-A)(I+A))^{-1}(I-A)\\ &=(I+A)(I+A)^{-1}(I-A)^{-1}(I-A)\\ &=I \end{aligned}$

反之亦可证明。证明过程中最巧妙的一步就是 $(I-A)(I+A)=(I+A)(I-A)$

那我们如何获得双向映射中的第二条（由W求A）呢？

由第一条得：

$\begin{aligned} (I+A)W&=(I-A)\\ W+AW&=I-A\\ A(W+I)&=(I-W)\\ A&=(I-W)(I+W)^{-1}\\ A&=(I+W)^{-1}(I-W) \end{aligned}$

但是，通过Cayley变换，我们不能获得特征值为-1的正交/酉矩阵。为什么呢？

先写下我的猜想：

假设通过Cayley变换，我们获得的矩阵W存在特征值 $\lambda=-1$ 的情况，其对应的特征向量为 $\mathbf{y}$ 。那么，我们就有 $\lambda \mathbf{y} = W \mathbf{y}$ 。

当矩阵可逆时，它必然没有特征值为0。但 $(I+W)\mathbf{y}=\mathbf{y}+W\mathbf{y}=\mathbf{y}-\mathbf{y}=\mathbf{0}$ ，解得 $\lambda=0$ ，说明 $(I+W)$ 不可逆。既然无法完成双射，那么这种情况自然Cayley变换就做不到了！