哈密顿矩阵和代数Riccati方程

首先介绍一个特殊的方阵 J ∈ R 2 n × 2 n J \in R^{2n \times 2n} JR2n×2n,其定义如下:
J = [ O n I n − I n O n ] J=\begin{bmatrix} O_n & I_n\\ -I_n & O_n \end{bmatrix} J=[OnInInOn]
其中 O n ∈ R n × n O_n\in R^{n\times n} OnRn×n是零矩阵; I n ∈ R n × n I_n \in R^{n \times n} InRn×n是单位矩阵。

那么这个矩阵具有下列的性质:
J T = − J J^T = -J JT=J
J − 1 = J T J^{-1} = J^T J1=JT
J T J = I 2 n J^TJ = I_{2n} JTJ=I2n
J T J T = − I 2 n J^TJ^T = -I_{2n} JTJT=I2n
J 2 = − I 2 n J^2 = -I_{2n} J2=I2n
d e t J = ± 1 det J = \pm 1 detJ=±1

哈密顿矩阵(Hamiltonian matrix)定义

一个矩阵 A ∈ R 2 n × 2 n A\in R^{2n \times 2n} AR2n×2n叫哈密顿矩阵如果 J A JA JA 是对称的,也就是说:
J A = ( J A ) T ⇒ A T J + J A = 0 JA = (JA)^T \Rightarrow A^TJ+JA = 0 JA=(JA)TATJ+JA=0,其中 J J J就是上面介绍的特殊矩阵。
H = { A ∈ R 2 n × 2 n ∣ A T J + J A = 0 } \mathcal{H} =\{A \in R^{2n\times 2n}|A^TJ+JA = 0\} H={AR2n×2nATJ+JA=0} 2 n × 2 n 2n\times 2n 2n×2n的哈密顿矩阵的集合。

以下三条性质是等价的:

  1. A A A是一个哈密顿矩阵
  2. A = J S A=JS A=JS,其中 S = S T S=S^T S=ST
  3. ( J A ) ⊤ = J A (JA)^\top = JA (JA)=JA

定理:
A , B ∈ H n A,B \in \mathcal{H}^n A,BHn,那么下面定理是对的:

  1. A + B ∈ H n A+B \in \mathcal{H} ^n A+BHn
  2. α A ∈ H n \alpha A \in \mathcal{H}^n αAHn
  3. [ A , B ] ∈ H n [A,B] \in \mathcal{H}^n [A,B]Hn,其中 [ A , B ] = d e f A B − B A [A,B]\overset{\underset{\mathrm{def}}{}}{=}AB-BA [A,B]=defABBA

结果: ( H , [ ⋅ , ⋅ ] ) (\mathcal{H}, [\cdot, \cdot]) (H,[,])是个李代数(Lie algebra)。

定理

A ∈ H n A\in \mathcal{H}^n AHn p A ( x ) p_A(x) pA(x)为矩阵 A A A的特征多项式,那么:

  • p A ( x ) = p A ( − x ) p_A(x) = p_A(-x) pA(x)=pA(x)
  • 如果 p A ( c ) = 0 p_A(c) = 0 pA(c)=0,那么 p A ( − c ) = p A ( c ˉ ) = p A ( − c ˉ ) = 0 p_A(-c) = p_A(\bar c)=p_A(-\bar c)=0 pA(c)=pA(cˉ)=pA(cˉ)=0,其中 c ∈ R c\in R cR

代数Riccati Equation

首先定义不变子空间(invariant subspace)
由向量 v 1 , , . . . v k v_1,,...v_k v1,,...vk张成的线性空间 ν \nu ν叫做矩阵 A A A的不变子空间如果对于任意 v ∈ ν , A v ∈ ν v \in \nu, Av \in \nu vν,Avν
考虑下面的代数Riccati Equation (ARE):
0 = R ( x ) = F + A T X + X A + X A − X G X ( 1 ) 0=R(x)=F+A^TX+XA+XA-XGX (1) 0=R(x)=F+ATX+XA+XAXGX1
其中 A , F , G , X ∈ R n × n A,F,G,X\in R^{n \times n} A,F,G,XRn×n F , G F,G F,G是对称矩阵, X X X是未知的对称矩阵。
定义 H = [ A G F − A T ] H =\begin{bmatrix}A & G\\ F& -A^T \end{bmatrix} H=[AFGAT],令 [ U V ] \begin{bmatrix} U\\ V \end{bmatrix} [UV]
H H H的不变子空间的一个向量,
也就是说
[ A G F − A T ] [ U V ] = [ U V ] Z ,        ( 2 ) \begin{bmatrix} A & G\\ F & -A^T \end{bmatrix}\begin{bmatrix} U\\ V \end{bmatrix}=\begin{bmatrix} U\\ V \end{bmatrix}Z , \; \; \; (2) [AFGAT][UV]=[UV]Z,(2)
其中 Z ∈ R n × n , λ ( Z ) ⊂ λ ( H ) Z\in R^{n\times n}, \lambda(Z) \subset \lambda(H) ZRn×n,λ(Z)λ(H)
假定 U U U是非奇异的,那么从 ( 2 ) (2) (2)的第一行得到:
A U + G V = U Z ↔ U − 1 A U + U − 1 G V = Z AU+GV = UZ \leftrightarrow U^{-1}AU+U^{-1}GV=Z AU+GV=UZU1AU+U1GV=Z
将其插入第二行得到的方程:
F U − A T V = V Z = V U − 1 A U + V U − 1 G V FU-A^TV=VZ=VU^{-1}AU+VU^{-1}GV FUATV=VZ=VU1AU+VU1GV
以上方程等于
0 = F − A T V U − 1 − V U − 1 A − V U − 1 G V U − 1 0=F-A^TVU^{-1}-VU^{-1}A-VU^{-1}GVU^{-1} 0=FATVU1VU1AVU1GVU1
X : = − V U − 1 X:= -VU^{-1} X:=VU1,我们发现 X X X正好是 ( 1 ) (1) (1)的解。

定理

考虑哈密顿矩阵 H H H,假设该矩阵没有特征值在虚轴上,其不变子空间是 χ − = I m [ X 1 X 2 ] ⊂ R 2 n × n \chi_{-} = Im \begin{bmatrix} X_1\\ X_2 \end{bmatrix} \subset R^{2n \times n} χ=Im[X1X2]R2n×n
这是一个由稳定特征值对应的特征向量张成的空间。
如果 X 1 X_1 X1是可逆的,那么 X = − X 2 X 1 − 1 X=-X_2X_1^{-1} X=X2X11是代数Ricatti方程的解,并且 A − G X A-GX AGX是稳定的。

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
哈密顿-雅可比-贝尔曼方程的推导是基于动态规划的思想。动态规划是一种解决多阶段决策过程最优化问题的方法。在这个过程中,我们需要找到一个最优策略,使得总成本最小化。这个问题可以被分解成多个子问题,每个子问题都是一个最优化问题。通过解决这些子问题,我们可以得到整个问题的最优解。 在动态规划中,我们需要定义一个价值函数,它表示在当前状态下采取最优策略所能得到的最小成本。哈密顿-雅可比-贝尔曼方程就是用来计算这个价值函数的。具体来说,它是一个偏微分方程,描述了价值函数在时间和状态上的变化。 哈密顿-雅可比-贝尔曼方程的推导可以分为两个步骤。首先,我们需要定义一个贝尔曼方程,它描述了价值函数在一个时间步长内的变化。然后,我们将这个贝尔曼方程推广到连续时间和状态空间上,得到哈密顿-雅可比-贝尔曼方程。 具体来说,贝尔曼方程可以表示为: V(s) = min_u {c(s,u) + γ ∑_s' p(s'|s,u) V(s')} 其中,V(s)表示在状态s下的价值函数,c(s,u)表示在状态s下采取行动u所产生的成本,p(s'|s,u)表示在状态s下采取行动u后转移到状态s'的概率,γ是一个折扣因子,用于平衡当前和未来的成本。 接下来,我们将这个贝尔曼方程推广到连续时间和状态空间上。我们定义一个哈密顿函数H(x,u,t),它表示在时间t和状态x下采取行动u所能得到的最小成本。哈密顿函数可以表示为: H(x,u,t) = min_v {c(x,u,v,t) + ∂V(x,t)/∂t + ∑_i=1^n f_i(x,u,v,t) ∂V(x,t)/∂x_i} 其中,c(x,u,v,t)表示在状态x下采取行动u和v所产生的成本,f_i(x,u,v,t)表示状态x在第i个维度上的变化率。 最后,我们可以得到哈密顿-雅可比-贝尔曼方程: ∂V(x,t)/∂t + min_u H(x,u,t) = 0 这个方程描述了价值函数在时间和状态上的变化。通过求解这个方程,我们可以得到最优策略和最小成本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值