线性代数|机器学习-P17矩阵A逆和奇异值的导数

取个名字真难呐

已于 2024-06-22 11:05:13 修改

阅读量695

点赞数 20

文章标签：线性代数机器学习矩阵

于 2024-06-22 06:21:27 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/139873248

版权

文章目录

1. $A^2$ 关于时间的导数
2. 奇异值 $\sigma$ 关于时间的导数
3. 迭代特征值
- 3.1 交替特征值
- 3.2 S+T 矩阵最大特征值
4. 瑞利商的思考
- 4.1 瑞利商的定义
- 4.2 性质1

1. $A^2$ 关于时间的导数

我们在已知 $\frac{\mathrm{d}A}{\mathrm{d}t}$ 的情况下，如何求解 $\frac{\mathrm{d}A^2}{\mathrm{d}t}$ ?
$\begin{equation} \frac{\mathrm{d}A}{\mathrm{d}t}\rightarrow \frac{\mathrm{d}A^2}{\mathrm{d}t}?? \end{equation}$

我们定义A的变化为 $\Delta A$ ,t 的变化为 $\Delta t$ ,计算 $\frac{\mathrm{d}A^2}{\mathrm{d}t}$
$\begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=\frac{(A+\Delta A)^2-A^2}{\Delta t}=\frac{A^2+A\Delta A+\Delta AA+(\Delta A)^2-A^2}{\Delta t}=\frac{A\Delta A+\Delta AA+(\Delta A)^2}{\Delta t} \end{equation}$
$\begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\Delta A}{\Delta t}+\frac{\Delta A}{\Delta t}A+\frac{\Delta A}{\Delta t}\Delta A=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation}$
整理可得结论如下：
$\begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation}$

2. 奇异值 $\sigma$ 关于时间的导数

对于任意矩阵A来说，我们可以按照奇异值分解得到如下结果：
$\begin{equation} Av=u\sigma,u^Tu=1,v^Tv=1 \end{equation}$

整理可得如下：
$\begin{equation} \sigma=u^TAv \end{equation}$
关于t求导如下：
$\begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\frac{\mathrm{d}u^T}{\mathrm{d}t}Av+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+u^TA\frac{\mathrm{d}v}{\mathrm{d}t} \end{equation}$
我们知道 $Av=u\sigma;u^TA=\sigma v^T$ ，整理可得
$\begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\sigma\frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+\sigma v^T\frac{\mathrm{d}v}{\mathrm{d}t}=\sigma(\frac{\mathrm{d}u^T}{\mathrm{d}t}u+v^T\frac{\mathrm{d}v}{\mathrm{d}t})+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation}$
我们知道 $u^Tu=1$ ，两边求导可得：
$\begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation}$
转置不影响求导顺序，既可以先转置后求导，也可以先求导再转置；
对于标量来说， $x^Ty=y^Tx$ ，所以可得：
$\begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u=u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation}$
所以最后可得如下结论：
$\begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation}$

3. 迭代特征值

3.1 交替特征值

假设我们有一个对称矩阵S，在矩阵S的基础上加一个秩为1的矩阵得到 $S_1$ ，我们定义矩阵S的特征值为 $\lambda$ , $u_2$ 为S矩阵中 $\lambda_2$ 对应的特征向量,矩阵 $S_1$ 对应的特征值为 $\mu$ 具体如下：
$\begin{equation} S\rightarrow \lambda_1,\lambda_2,\cdots,\lambda_n;S_1\rightarrow \mu_1,\mu_2,\cdots,\mu_n; \end{equation}$
$\begin{equation} S_1=S+\theta u_2u_2^T \end{equation}$

最后可以得到特征值交替结果，具体证明请看上一节内容
$\begin{equation} \mu_1\ge \lambda_1 \ge \mu_2 \ge \lambda_2\ge \cdots\ge\mu_n\ge\lambda_n \end{equation}$

3.2 S+T 矩阵最大特征值

假设我们有一个对称矩阵S,一个秩为1的对称矩阵T，那么S+T特征值最大关系如下:

[仅供猜测] 对于原来的矩阵S来说，新增秩为1的矩阵T，得到S+T，那么T带来的效果最差是加1，好点的效果是消除部分行，所以最终得到的S+T的秩小于分别相加，同样特征值也如此。
$\begin{equation} \lambda_{\mathrm{max}}(S+T)\leq \lambda_{\mathrm{max}}(S)+\lambda_{\mathrm{max}}(T) \end{equation}$

4. 瑞利商的思考

4.1 瑞利商的定义

假设A是n阶实对称矩阵，x是n维非零列向量，那么瑞利商表示如下：
$\begin{equation} R(A,x)=\frac{x^TAx}{x^Tx} \end{equation}$

4.2 性质1

记 $\lambda_{\mathrm{max}}$ 是矩阵A的最大特征值， $\lambda_{\mathrm{min}}$ 是矩阵A的最小特征值，则
$\begin{equation} \mathop{max}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{max}},\mathop{min}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{min}} \end{equation}$

若在 $x^Tx=k$ 条件下：
$\begin{equation} \mathop{max}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{max}};\mathop{min}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{min}}; \end{equation}$
若记 $\alpha_1$ 为 $\lambda_{\mathrm{max}}$ 对于的单位特征向量， $\alpha_2$ 为 $\lambda_{\mathrm{min}}$ 对于的单位特征向量，则
当 $x=\sqrt{k}\alpha_1$ 时，可取到 $x^TAx$ 的最大值 $k\lambda_{\mathrm{max}}$ .
当 $x=\sqrt{k}\alpha_2$ 时，可取到 $x^TAx$ 的最小值 $k\lambda_{\mathrm{min}}$ .