线性代数|机器学习-P17矩阵A逆和奇异值的导数

1. A 2 A^2 A2关于时间的导数

我们在已知 d A d t \frac{\mathrm{d}A}{\mathrm{d}t} dtdA的情况下,如何求解 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2?
d A d t → d A 2 d t ? ? \begin{equation} \frac{\mathrm{d}A}{\mathrm{d}t}\rightarrow \frac{\mathrm{d}A^2}{\mathrm{d}t}?? \end{equation} dtdAdtdA2??

  • 我们定义A的变化为 Δ A \Delta A ΔA,t 的变化为 Δ t \Delta t Δt,计算 d A 2 d t \frac{\mathrm{d}A^2}{\mathrm{d}t} dtdA2
    d A 2 d t = ( A + Δ A ) 2 − A 2 Δ t = A 2 + A Δ A + Δ A A + ( Δ A ) 2 − A 2 Δ t = A Δ A + Δ A A + ( Δ A ) 2 Δ t \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=\frac{(A+\Delta A)^2-A^2}{\Delta t}=\frac{A^2+A\Delta A+\Delta AA+(\Delta A)^2-A^2}{\Delta t}=\frac{A\Delta A+\Delta AA+(\Delta A)^2}{\Delta t} \end{equation} dtdA2=Δt(A+ΔA)2A2=ΔtA2+AΔA+ΔAA+(ΔA)2A2=ΔtAΔA+ΔAA+(ΔA)2
    d A 2 d t = A Δ A Δ t + Δ A Δ t A + Δ A Δ t Δ A = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\Delta A}{\Delta t}+\frac{\Delta A}{\Delta t}A+\frac{\Delta A}{\Delta t}\Delta A=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AΔtΔA+ΔtΔAA+ΔtΔAΔA=AdtdA+dtdAA
  • 整理可得结论如下:
    d A 2 d t = A d A d t + d A d t A \begin{equation} \frac{\mathrm{d}A^2}{\mathrm{d}t}=A\frac{\mathrm{d}A}{\mathrm{d}t}+\frac{\mathrm{d}A}{\mathrm{d}t}A \end{equation} dtdA2=AdtdA+dtdAA

2. 奇异值 σ \sigma σ 关于时间的导数

对于任意矩阵A来说,我们可以按照奇异值分解得到如下结果:
A v = u σ , u T u = 1 , v T v = 1 \begin{equation} Av=u\sigma,u^Tu=1,v^Tv=1 \end{equation} Av=uσ,uTu=1,vTv=1

  • 整理可得如下:
    σ = u T A v \begin{equation} \sigma=u^TAv \end{equation} σ=uTAv
  • 关于t求导如下:
    d σ d t = d u T d t A v + u T d A d t v + u T A d v d t \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\frac{\mathrm{d}u^T}{\mathrm{d}t}Av+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+u^TA\frac{\mathrm{d}v}{\mathrm{d}t} \end{equation} dtdσ=dtduTAv+uTdtdAv+uTAdtdv
  • 我们知道 A v = u σ ; u T A = σ v T Av=u\sigma;u^TA=\sigma v^T Av=uσ;uTA=σvT,整理可得
    d σ d t = σ d u T d t u + u T d A d t v + σ v T d v d t = σ ( d u T d t u + v T d v d t ) + u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=\sigma\frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v+\sigma v^T\frac{\mathrm{d}v}{\mathrm{d}t}=\sigma(\frac{\mathrm{d}u^T}{\mathrm{d}t}u+v^T\frac{\mathrm{d}v}{\mathrm{d}t})+u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=σdtduTu+uTdtdAv+σvTdtdv=σ(dtduTu+vTdtdv)+uTdtdAv
  • 我们知道 u T u = 1 u^Tu=1 uTu=1,两边求导可得:
    d u T d t u + u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u+u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu+uTdtdu=0
  • 转置不影响求导顺序,既可以先转置后求导,也可以先求导再转置;
  • 对于标量来说, x T y = y T x x^Ty=y^Tx xTy=yTx,所以可得:
    d u T d t u = u T d u d t = 0 \begin{equation} \frac{\mathrm{d}u^T}{\mathrm{d}t}u=u^T\frac{\mathrm{d}u}{\mathrm{d}t}=0 \end{equation} dtduTu=uTdtdu=0
  • 所以最后可得如下结论:
    d σ d t = u T d A d t v \begin{equation} \frac{\mathrm{d}\sigma}{\mathrm{d}t}=u^T\frac{\mathrm{d}A}{\mathrm{d}t}v \end{equation} dtdσ=uTdtdAv

3. 迭代特征值

3.1 交替特征值

假设我们有一个对称矩阵S,在矩阵S的基础上加一个秩为1的矩阵得到 S 1 S_1 S1,我们定义矩阵S的特征值为 λ \lambda λ, u 2 u_2 u2为S矩阵中 λ 2 \lambda_2 λ2对应的特征向量,矩阵 S 1 S_1 S1对应的特征值为 μ \mu μ具体如下:
S → λ 1 , λ 2 , ⋯   , λ n ; S 1 → μ 1 , μ 2 , ⋯   , μ n ; \begin{equation} S\rightarrow \lambda_1,\lambda_2,\cdots,\lambda_n;S_1\rightarrow \mu_1,\mu_2,\cdots,\mu_n; \end{equation} Sλ1,λ2,,λn;S1μ1,μ2,,μn;
S 1 = S + θ u 2 u 2 T \begin{equation} S_1=S+\theta u_2u_2^T \end{equation} S1=S+θu2u2T

  • 最后可以得到特征值交替结果,具体证明请看上一节内容
    μ 1 ≥ λ 1 ≥ μ 2 ≥ λ 2 ≥ ⋯ ≥ μ n ≥ λ n \begin{equation} \mu_1\ge \lambda_1 \ge \mu_2 \ge \lambda_2\ge \cdots\ge\mu_n\ge\lambda_n \end{equation} μ1λ1μ2λ2μnλn

3.2 S+T 矩阵最大特征值

假设我们有一个对称矩阵S,一个秩为1的对称矩阵T,那么S+T特征值最大关系如下:

  • [仅供猜测] 对于原来的矩阵S来说,新增秩为1的矩阵T,得到S+T,那么T带来的效果最差是加1,好点的效果是消除部分行,所以最终得到的S+T的秩小于分别相加,同样特征值也如此。
    λ m a x ( S + T ) ≤ λ m a x ( S ) + λ m a x ( T ) \begin{equation} \lambda_{\mathrm{max}}(S+T)\leq \lambda_{\mathrm{max}}(S)+\lambda_{\mathrm{max}}(T) \end{equation} λmax(S+T)λmax(S)+λmax(T)

4. 瑞利商的思考

4.1 瑞利商的定义

假设A是n阶实对称矩阵,x是n维非零列向量,那么瑞利商表示如下:
R ( A , x ) = x T A x x T x \begin{equation} R(A,x)=\frac{x^TAx}{x^Tx} \end{equation} R(A,x)=xTxxTAx

4.2 性质1

λ m a x \lambda_{\mathrm{max}} λmax是矩阵A的最大特征值, λ m i n \lambda_{\mathrm{min}} λmin是矩阵A的最小特征值,则
m a x x ≠ 0 R ( A , x ) = λ m a x , m i n x ≠ 0 R ( A , x ) = λ m i n \begin{equation} \mathop{max}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{max}},\mathop{min}\limits_{x\neq 0}R(A,x)=\lambda_{\mathrm{min}} \end{equation} x=0maxR(A,x)=λmax,x=0minR(A,x)=λmin

  • 若在 x T x = k x^Tx=k xTx=k条件下:
    m a x x T x = k x T A x = k λ m a x ; m i n x T x = k x T A x = k λ m i n ; \begin{equation} \mathop{max}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{max}};\mathop{min}\limits_{x^Tx=k}x^TAx=k\lambda_{\mathrm{min}}; \end{equation} xTx=kmaxxTAx=kλmax;xTx=kminxTAx=kλmin;
  • 若记 α 1 \alpha_1 α1 λ m a x \lambda_{\mathrm{max}} λmax对于的单位特征向量, α 2 \alpha_2 α2 λ m i n \lambda_{\mathrm{min}} λmin对于的单位特征向量,则
    x = k α 1 x=\sqrt{k}\alpha_1 x=k α1时,可取到 x T A x x^TAx xTAx的最大值 k λ m a x k\lambda_{\mathrm{max}} kλmax.
    x = k α 2 x=\sqrt{k}\alpha_2 x=k α2时,可取到 x T A x x^TAx xTAx的最小值 k λ m i n k\lambda_{\mathrm{min}} kλmin.
  • 20
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值