矩阵分析与应用-5.3-共轭梯度与无约束最优化

前言

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.

更加详细的内容可以跳转网址 https://zlearning.netlify.app/math/matrix/matrix-gradient.html

一、标量函数的共轭梯度公式

  1. f ( x ) = c f(x) = c f(x)=c 为常数, 则共轭梯度 ∂ c ∂ x ∗ = 0 \frac{\partial c}{\partial x^*} = 0 xc=0

  2. 线性法则: 若 f ( x ) f(x) f(x) g ( x ) g(x) g(x) 分别是向量 x x x 的实值函数, c 1 c_1 c1 c 2 c_2 c2 为复常数, 则

∂ [ c 1 f ( x ) + c 2 g ( x ) ] ∂ x ∗ = c 1 ∂ f ( x ) ∂ x ∗ + c 2 ∂ g ( x ) ∂ x ∗ (1) \frac{\partial [c_1f(x) + c_2g(x)]}{\partial x^*} = c_1 \frac{\partial f(x)}{\partial x^*} + c_2 \frac{\partial g(x)}{\partial x^*} \tag{1} x[c1f(x)+c2g(x)]=c1xf(x)+c2xg(x)(1)

  1. 乘积法则

    • f ( x ) f(x) f(x) g ( x ) g(x) g(x) 都是向量 x x x 的实值函数, 则

    ∂ f ( x ) g ( x ) ∂ x ∗ = g ( x ) ∂ f ( x ) ∂ x ∗ + f ( x ) ∂ g ( x ) ∂ x ∗ (2) \frac{\partial f(x)g(x)}{\partial x^*} = g(x) \frac{\partial f(x)}{\partial x^*} + f(x) \frac{\partial g(x)}{\partial x^*} \tag{2} xf(x)g(x)=g(x)xf(x)+f(x)xg(x)(2)

    • f ( x ) f(x) f(x) , g ( x ) g(x) g(x) h ( x ) h(x) h(x) 都是向量 x x x 的实值函数, 则

    ∂ f ( x ) g ( x ) h ( x ) ∂ x ∗ = g ( x ) h ( x ) ∂ f ( x ) ∂ x ∗ + f ( x ) h ( x ) ∂ g ( x ) ∂ x ∗ + f ( x ) g ( x ) ∂ h ( x ) ∂ x ∗ (3) \frac{\partial f(x)g(x)h(x)}{\partial x^*} = g(x)h(x) \frac{\partial f(x)}{\partial x^*} + f(x)h(x) \frac{\partial g(x)}{\partial x^*} +f(x)g(x) \frac{\partial h(x)}{\partial x^*} \tag{3} xf(x)g(x)h(x)=g(x)h(x)xf(x)+f(x)h(x)xg(x)+f(x)g(x)xh(x)(3)

  2. 商法则: 若 g ( x ) ≠ 0 g(x) \neq 0 g(x)=0, 则

∂ f ( x ) / g ( x ) ∂ x ∗ = 1 g 2 ( x ) [ g ( x ) ∂ f ( x ) ∂ x ∗ − f ( x ) ∂ g ( x ) ∂ x ∗ ] (4) \frac{\partial f(x)/g(x)}{\partial x^*} = \frac{1}{{g^2}(x)}\Bigg [ g(x) \frac{\partial f(x)}{\partial x^*} - f(x) \frac{\partial g(x)}{\partial x^*}\Bigg ] \tag{4} xf(x)/g(x)=g2(x)1[g(x)xf(x)f(x)xg(x)](4)

  1. 链式法则: 若 y ( x ) y(x) y(x) x x x 的复向量值函数, 则

    ∂ f ( y ( x ) ) ∂ x ∗ = ∂ [ y ( x ) ] T ∂ x ∗ ∂ f ( y ) ∂ y (5) \frac{\partial f(y(x))}{\partial x^*} = \frac{\partial [y(x)]^{\mathrm{T}}}{\partial x^*} \frac{\partial f(y)}{\partial y} \tag{5} xf(y(x))=x[y(x)]Tyf(y)(5)

    式子中, ∂ [ y ( x ) ] T ∂ x ∗ \frac{\partial [y(x)]^{\mathrm{T}}}{\partial x^*} x[y(x)]T n × n n \times n n×n 矩阵.

  2. n × 1 n \times 1 n×1 向量为 a a a x x x 无关的常数向量, 则

∂ a H x ∂ x ∗ = a , ∂ x H a ∂ x ∗ = a (6) \frac{\partial a^{\mathrm{H}}x}{\partial x^*} = a, \quad \frac{\partial x^{\mathrm{H}}a}{\partial x^*} = a \tag{6} xaHx=a,xxHa=a(6)

( 此处的第一个式子存疑, 应该是 a a a 而不是书上所写的 0 )

  1. A A A 是一个与向量 x x x 无关的矩阵, 则

∂ x H A x ∂ x = A H x ∗ , ∂ x H A x ∂ x ∗ = A x ∂ x H A y ∂ A = x ∗ y T , ∂ x H A x ∂ A = x ∗ x T (7) \begin{aligned} \frac{\partial x^{\mathrm{H}}Ax}{\partial x} = A^{\mathrm{H}}x^*, \quad \frac{\partial x^{\mathrm{H}}Ax}{\partial x^*} = Ax \\ \frac{\partial x^{\mathrm{H}}Ay}{\partial A} = x^*y^{\mathrm{T}}, \quad \frac{\partial x^{\mathrm{H}}Ax}{\partial A} = x^*x^{\mathrm{T}} \end{aligned} \tag{7} xxHAx=AHx,xxHAx=AxAxHAy=xyT,AxHAx=xxT(7)

二、例题解析

常见的迹函数的共轭梯度的常用公式

∂ t r ( y x H ) ∂ x ∗ = ∂ t r ( x H y ) ∂ x ∗ = y ∂ t r ( B A H ) ∂ A ∗ = ∂ t r ( A H B ) ∂ A ∗ = B ∂ t r ( A H ) ∂ A ∗ = I , ∂ t r ( A ) ∂ A ∗ = O ∂ t r ( A H W A ) ∂ A ∗ = W A , ∂ t r ( A W A H ) ∂ A ∗ = A W (8) \begin{aligned} \frac{\partial \mathrm{tr}(yx^{\mathrm{H}})}{\partial x^*} &= \frac{\partial \mathrm{tr}(x^{\mathrm{H}}y)}{\partial x^*} = y \\ \frac{\partial \mathrm{tr}(BA^{\mathrm{H}})}{\partial A^*} &= \frac{\partial \mathrm{tr}(A^{\mathrm{H}}B)}{\partial A^*} = B \\ \frac{\partial \mathrm{tr}(A^{\mathrm{H}})}{\partial A^*} &= I, \quad \frac{\partial \mathrm{tr}(A)}{\partial A^*} = O \\ \frac{\partial \mathrm{tr}(A^{\mathrm{H}}WA)}{\partial A^*} &= WA, \quad \frac{\partial \mathrm{tr}(AWA^{\mathrm{H}})}{\partial A^*} = AW \\ \end{aligned} \tag{8} xtr(yxH)Atr(BAH)Atr(AH)Atr(AHWA)=xtr(xHy)=y=Atr(AHB)=B=I,Atr(A)=O=WA,Atr(AWAH)=AW(8)

C D M A \mathrm{CDMA} CDMA 系统中, 仍然共有 K K K 个用户在通信, 但每个用户的扩频波形向量变成复向量 s k ( t ) s_k(t) sk(t), 接受信号向量 y y y 也为复向量. 此外, 设计多用户检测器 M M M 的目标函数变为

J ( M ) = E { ∥ b − M y ∥ 2 2 } = t r ( c o v ( b − M y ) ) = t r ( I ) + t r ( M ( R A 2 R + σ 2 R ) M H ) − t r ( A R M H ) − t r ( M R A ) \begin{aligned} J(M) &= E\{\lVert b - My \rVert_2^2\} \\ &= \mathrm{tr}(\mathrm{cov}(b - My)) \\ &= \mathrm{tr}(I) + \mathrm{tr}(M(RA^2R + \sigma^2R)M^{\mathrm{H}}) - \mathrm{tr}(ARM^{\mathrm{H}}) - \mathrm{tr}(MRA) \end{aligned} J(M)=E{bMy22}=tr(cov(bMy))=tr(I)+tr(M(RA2R+σ2R)MH)tr(ARMH)tr(MRA)

利用迹函数的共轭梯度常用公式可得

∂ J ( M ) ∂ M ∗ = M ( R A 2 R + σ 2 R ) − A R \frac{\partial J(M)}{\partial M^*} = M(RA^2R + \sigma^2R) - AR MJ(M)=M(RA2R+σ2R)AR

令其等于零, 并假定 R R R 非奇异, 就有

M = A ( R A 2 + σ 2 I ) − 1 M = A(RA^2 + \sigma^2I)^{-1} M=A(RA2+σ2I)1

三、总结

我不知道为什么这本书上在表达共轭梯度公式的时候要在分母的地方用向量或者矩阵右上角添加一个星号来表示. 刚开始我就觉得这个是伴随矩阵, 但是实际运算的时候和伴随矩阵一点关系都没有. 之后恍然大悟, 原来是复共轭的符号.

在符号表示这方面其实还是存在着很多坑.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值