LQR,iLQR,DDP控制论经典算法（MBRL基础知识）

最新推荐文章于 2025-03-07 09:29:04 发布

Nemo555

最新推荐文章于 2025-03-07 09:29:04 发布

阅读量1.9w

点赞数 39

分类专栏： Deep RL 文章标签：算法深度学习人工智能

本文链接：https://blog.csdn.net/weixin_40056577/article/details/104270668

版权

Deep RL 专栏收录该内容

27 篇文章

订阅专栏

深度强化学习CS285 lec10-lec12 基础知识LQR Framework

一、线性二次型调节器LQR（Linear Quadratic Regulator）
二、iLQR（Iterative Linear Quadratic Regulator）
三、 DDP及iLQR改进
四、小总结
参考资料
补充

一、线性二次型调节器LQR（Linear Quadratic Regulator）

1.1 LQR符号与术语

现有一些随机策略 $p_\theta(u_t|x_t)$ 收集的样本：
$\tau^i=(x_1^i,u_1^i,x_2^i,u_2^i,...,x_T^i,u_T^i,x_{T+1}^i),i=1,2...,N$
$x_t,u_t$ 即为第t时刻的状态与动作，此为控制论符号的表述 $x_t,u_t)=(s_t,a_t)$ ，两者可进行混用。lec1-lec4中提到，NN的cost function $c(x_t,u_t)$ 实际上是一种immediate的监督信号，RL的reward function $r(s_t,a_t)$ 实际上是一种delayed的监督信息，因此在一个time step下，有 $c(x_t,u_t)=-r(x_t,u_t)+constant$ 。下面给出一个术语表格，基础知识主要使用控制领域的术语表述。

	Control	RL
状态state	$x_t$	$s_t$
动作action	$u_t$	$a_t$
监督信号	$c(x_t,u_t)$	$r(s_t,a_t)$
动态模型	$x_{t+1}\sim f(x_t,u_t)$	$s'\sim p(s'｜s,a)$

1.2 LQR问题下的设定

动态模型是deterministic的，即 $x_{t+1}=f(x_t,u_t),f(x_t,u_t)$ 不是一个概率分布的模型。
监督信号cost function，最优控制中有performance measure的指标 $J=h(x_T,T)+\int_{t_=0}^Tg(x_t,u_t,t)dt$ ，第一项衡量该轨迹 $\tau$ 末尾的状态 $X_T$ 与任务目标状态的距离，第二项衡量该轨迹 $\tau$ 从起始到末尾，走完该轨迹中每个状态与动作所要消耗的代价，其中函数g为标量。因此 $c(x_t,u_t)$ 即为performace measure中的函数g。LQR的监督信号 $c(x_t,u_t)$ 是已知的，输入 $x_t,u_t$ ，输出一个标量scalar。
LQR的目的是，给定一个初始状态 $x_1$ ，终止状态或任务目标状态 $x_{T+1}$ ，已知环境动态模型 $x_{t+1}=f(x_t,u_t)$ ，求出一串动作序列 $u_1,u_2,...,u_T$ 使得累积cost最小，即
$\min_{u1,...,u_T}\sum_{t=1}^Tc(x_t,u_t)\quad s.t\quad x_t=f(x_{t-1},u_{t-1})$
LQR的approximation，linear体现在对 $f(x_t,u_t)$ 采用一阶线性近似，quadratic体现在对 $c(x_t,u_t)$ 采用二阶近似，即
$x_{t+1}=f(x_t,u_t)\approx F_t \left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t=\left[ \begin{matrix} F_{x_t} &F_{u_t} \end{matrix}\right]\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t \\ c(x_t,u_t)= \frac{1}{2}\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]^T\left[ \begin{matrix} C_{x_t,x_t} &C_{x_t,u_t}\\C_{u_t,x_t}&C_{u_t,u_t} \end{matrix}\right]\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]^T\left[ \begin{matrix} c_{x_t}\\c_{u_t} \end{matrix}\right] =\frac{1}{2}\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]^TC_t\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]^Tc_t$
所以LQR的优化问题表述为：
$\min_{u1,...,u_T}\sum_{t=1}^Tc(x_t,u_t)\quad s.t\quad x_t=f(x_{t-1},u_{t-1})\\ f(x_t,u_t)= F_t \left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t \\ c(x_t,u_t)=\frac{1}{2}\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]^TC_t\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+\left[ \begin{matrix} x_t\\u_t \end{matrix}\right]^Tc_t$
其中 $F_t,f_t,C_t,c_t$ 均已知，下面推到用到其展开形式！

1.3 LQR求解

Forward
LQR求解主要有Backward Pass与Forward Pass两大过程，先看看对于LQR这个问题，什么是已知的，什么是未知的。

已知：initial state 初始状态 $x_1$ ,goal state目标状态 $x_{T+1}$ ,动态模型 $f(x_t,u_t)$ 与cost function $c(x_t,u_t)$ 的结构参数 $F_t,f_t,C_t,c_t$
未知： $x_2,x_3,...,x_T,u_1,u_2,...,u_T$ 。因为 $x_2=f(x_1,u_1),x_3=f(x_2,u_2),...,x_T=f(x_{T-1},u_{T-1}),x_{T+1}=f(x_T,u_T)$ ，所以实际上未知的就是动作序列 $u_1,...,u_T$
目标函数变为： $\min_{u_1,..u_T}c(x_1,u_1)+c(f(x_1,u_1),u_2)+\cdots+c(f(f(...()...),u_T)$ 啰嗦一下， $V(x_{T+1})$ 由于终态确定，故可看做 $c o n s t$ ，而且dynamics是deterministic的，所以有 $Q(x_t,u_t)=r(x_t,u_t)+V(x_{t+1})$ ，于是目标函数可以看成：
$\begin{aligned} &\min_{u_1,..u_T}c(x_1,u_1)+c(f(x_1,u_1),u_2)+\cdots+c(f(f(...()...),u_T)-V(x_{T+1})\\ &\max_{u_1,...,u_T}r(x_1,u_1)+r(f(x_1,u_2),u_2)+\cdots+\underbrace{r(x_T,u_T)+V(x_{T+1})}_Q\\ =&\max_{u_1,...,u_T}r(x_1,u_1)+r(f(x_1,u_2),u_2)+\dots+r(x_{T-1},u_{T-1})+\underbrace{Q(x_T,u_T)}_{u_T=K_Tx_T+k_T}\\ =&\max_{u_1,...,u_T}r(x_1,u_1)+r(f(x_1,u_2),u_2)+\dots+r(x_{T-1},u_{T-1})+V(x_T,u_T)\\ =&\max_{u_1,...,u_T}r(x_1,u_1)+r(f(x_1,u_2),u_2)+\dots+Q(x_{T-1},u_{T-1})\\ =&\max_{u_1,...,u_T}Q(x_1,u_1) \end{aligned}$
求解思路，固定一个变量，调整其它变量，一个个求嘛，但如果是固定 $u_1$ ，即Forward Pass前向算法，会经过多个动态模型 $f$ 的迭代，很难求解，于是先从BackWard角度考虑，即从 $u_T$ 入手。

1.3.1 推导过程

$c(x_T,u_T)$ 是一个二元函数，真正未知的只有 $u_T$ ，要使cost最小，所以对其求导，得到 $u_T$ 关于 $x_T$ 的关系，称作控制律，是在Backward pass中实际想要的东西。
$\begin{aligned} \nabla_{u_T}Q(x_T,u_T)=\nabla_{u_T}c(x_T,u_T)&=\nabla_{u_T}\Big[\frac{1}{2}\left[ \begin{matrix} x_T\\u_T \end{matrix}\right]^TC_T\left[ \begin{matrix} x_T\\u_T \end{matrix}\right]+\left[ \begin{matrix} x_T\\u_T \end{matrix}\right]^Tc_T\Big] \\ &=\nabla_{u_T}\Big[C_{x_T,u_T}x_T+C_{u_T,u_T}u_T+c_{u_T}\Big]）\\ &=0\\ 所以u_T&=-C^{-1}_{u_T,u_T}(C_{u_T,x_T}x_T+c_{u_T}) \end{aligned}$
换一下表述有：
$u_T=K_Tx_T+k_T\\ K_T=-C^{-1}_{u_T,u_T}C_{u_T,x_T},k_T=-C^{-1}_{u_T,u_T}c_{u_T}$
这一步，得到了第T时刻的动作 $u_T$ 与第T时刻的状态 $x_T$ 之间的关系，其它系数均已知。
再看 $u_{T-1}$ 时，由动态模型 $x_T=f(x_{T-1},u_{T-1})$ ，由Q值函数 $Q(x_{T-1},u_{T-1})=r(x_{T-1},u_{T-1})+V(x_T)=-c(x_{T-1},u_{T-1})+V(x_T)$ 。
实际上，回顾lec5-lec9中对 $Q (s, a)$ 与 $V (s)$ 的理解，有 $Q(x_T,u_T)=r(x_T,u_T)+E[V(x_{T+1})]=r(x_T,u_T)+const=-c(x_T,u_T)+const$ ，代入 $u_T=K_Tx_T+k_T$ ，则：
$V(x_T)=Q(x_T,K_Tx_T+k_T)=-c(x_T,K_Tx_T+k_T)+const$ 代入quadratic cost function后化简一下并替换下表述有：
$\begin{aligned} &V(x_T) =-\frac{1}{2}x_T^TV_Tx_T+x_T^Tv_T\\ {V}_{T} &= {C}_{ {x}_{T}, {x}_{T}}+ {C}_{ {x}_{T}, {u}_{T}} {K}_{T}+ {K}_{T}^{T} {C}_{ {u}_{T}, {x}_{T}}+ {K}_{T}^{T} {C}_{ {u}_{T}, {u}_{T}} {K}_{T} \\ {v}_{T} &= {c}_{ {x}_{T}}+ {C}_{ {x}_{T}, {u}_{T}} {k}_{T}+ {K}_{T}^{T} {C}_{ {u}_{T}}+ {K}_{T}^{T} {C}_{ {u}_{T}, {u}_{T}} {k}_{T} \end{aligned}$
因此，表示T-1时刻的Q值函数，利用动态模型消掉 $x_T$ 并使其导数为0。
$\begin{aligned} -Q(x_{T-1},u_{T-1})&=c(x_{T-1},u_{T-1})-V(x_T)\\ &=\frac{1}{2}\left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]^TC_{T-1}\left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]+\left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]^Tc_{T-1}+\frac{1}{2}x_T^TV_Tx_T+x_T^Tv_T \end{aligned}$
代入 $x_T=f(x_{T-1},u_{T-1})= F_{T-1} \left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]+f_{T-1}$ ，便得到了仅有 $x_{T-1},u_{T-1}$ 表示的 $Q(x_{T-1},u_{T-1})$
具体而言，经过整理：
$Q(x_{T-1},u_{T-1})=\frac{1}{2}\left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]^TQ_{T-1}\left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]+\left[ \begin{matrix} x_{T-1}\\u_{T-1} \end{matrix}\right]^Tq_{T-1}\\ \begin{aligned} & {Q}_{T-1}= {C}_{T-1}+ {F}_{T-1}^{T} {V}_{T} {F}_{T-1}\\ & {q}_{T-1}= {c}_{T-1}+ {F}_{T-1}^{T} {V}_{T} {f}_{T-1}+ {F}_{T-1}^{T} {v}_{T}\\ \end{aligned}$
令其导数为0，得到 $u_{T-1}$ 与 $x_{T-1}$ 的关系，即T-1时刻的控制律：
$\nabla_{u_{T-1}}Q(x_{T-1},u_{T-1})=0\\ u_{T-1}=K_{T-1}x_{T-1}+k_{T-1}\\ K_{T-1}=-Q^{-1}_{u_{T-1},u_{T-1}}Q_{u_{T-1},x_{T-1}},k_{T-1}=-Q^{-1}_{u_{T-1},u_{T-1}}q_{u_{T-1}}$
如此类推，Backward Pass得到动作与状态的控制律：
$u_t=K_tx_t+k_t,t=1,2,...,T$

又因为 $x_1$ 已知，所以 $u_1$ 可由 $u_1=K_1x_1+k_1$ 计算得出，于是Forward Pass结合动态模型，算出动作序列：
$x_2=f(x_1,u_1)\\ u_2=K_2x_2+k_2\\ x_3=f(x_2,u_2)\\ \vdots \\ u_T=K_Tx_T+k_T$
小总结

Backward Pass步骤：

T时刻的 $\nabla_{u_T}Q(x_T,u_T)=0$ ，得控制律 $u_T=K_Tx_T+k_T$
计算 $V(x_T)$ ，并利用 $x_T=f(x_{T-1},u_{T-1})$ 消元，从而得到 $Q(x_{T-1},u_{T-1})=-c(x_{T-1},u_{T-1})+V(x_T)=-c(x_{T-1},u_{T-1})+V(f(x_{T-1},u_{T-1}))$
$\nabla_{u_T}Q(x_T,u_T)=0$ ，得控制律 $u_{T-1}=K_{T-1}x_{T-1}+k_{T-1}$
计算 $V(x_{T-1})$ ，利用动态模型消元，得 $Q(x_{T-2},u_{T-2})$
$\nabla_{u_{T-2}}Q(x_{T-2},u_{T-2}))=0$ ，得控制律 $u_{T-2}=K_{T-2}x_{T-2}+k_{T-2}$
以此类推。

Forward Pass步骤：
利用动态模型计算下一状态，利用控制律，计算出相应动作

1.3.2 LQR算法流程

Backward Pass
for t=T to t=1:
$\begin{aligned} & {Q}_{t}= {C}_{t}+ {F}_{t}^{T} {V}_{t+1} {F}_{t}\\ & {q}_{t}= {c}_{t}+ {F}_{t}^{T} {V}_{t+1} {f}_{t}+ {F}_{t}^{T} {v}_{t+1}\\ &Q\left( {x}_{t}, {u}_{t}\right)=const+\frac{1}{2}\left[\begin{array}{c} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]^{T} {Q}_{t}\left[\begin{array}{c} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]+\left[\begin{array}{c} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]^{T} {q}_{t}\\ & {u}_{t} \leftarrow \arg \min _{ {u}_{t}} Q\left( {x}_{t}, {u}_{t}\right)= {K}_{t} {x}_{t}+ {k}_{t}\\ & {K}_{t}=- {Q}_{ {u}_{t}, {u}_{t}}^{-1} {Q}_{ {u}_{t}, {x}_{t}}\\ & {k}_{t}=- {Q}_{ {u}_{t}, {u}_{t}}^{-1} {q}_{ {u}_{t}}\\ & {V}_{t}= {Q}_{ {x}_{t}, {x}_{t}}+ {Q}_{ {x}_{t}, {u}_{t}} {K}_{t}+ {K}_{t}^{T} {Q}_{ {u}_{t}, {x}_{t}}+ {K}_{t}^{T} {Q}_{ {u}_{t}, {u}_{t}} {K}_{t}\\ & {v}_{t}= {q}_{ {x}_{t}}+ {Q}_{ {x}_{t}, {u}_{t}} {k}_{t}+ {K}_{t}^{T} {Q}_{ {u}_{t}}+ {K}_{t}^{T} {Q}_{ {u}_{t}, {u}_{t}} {k}_{t}\\ &V\left( {x}_{t}\right)=\mathrm{const}+\frac{1}{2} {x}_{t}^{T} {V}_{t} {x}_{t}+ {x}_{t}^{T} {v}_{t} \end{aligned}$
Forward Pass
for t=1 to t=T:
$\begin{aligned} & {u}_{t}= {K}_{t} {x}_{t}+ {k}_{t}\\ & {x}_{t+1}=f\left( {x}_{t}, {u}_{t}\right) \end{aligned}$
LQR模块
即使上述过程不是很透彻，亦可如下图所示将LQR看成一个黑盒模块，对于已知deterministic的dynamics，使用LQR算法，便可得到一组动作序列 $u_1,...,u_T$ ，并可计算出状态序列。
输入：初始状态 $x_1$ ，目标状态 $x_{T+1}$ ，动态模型 $f(x_t,u_t)$ ，代价函数 $c(x_t,u_t)$
输出：动作序列 $u_1,...,u_T$ 和状态序列 $x_1,...,x_T$ ，即一条轨迹

二、iLQR（Iterative Linear Quadratic Regulator）

LQR的linear dynamics是deterministic的，这非常受限，对应RL中的 $s^{'} = p (s^{'} ∣ s, a)$ ，在当前state，选择一个action后，下一状态就确定了。为了应对复杂环境dynamics的stochastic，即 $s'\sim p(s'|s,a)$ ，相当于说把LQR中假设linear dynamics拓展成了Non-linear dynamics，这时候需要采用iLQR，再叙述之前，先回顾一下以下两种优化算法，可参考以下专栏。
优化算法（甩甩的知乎专栏）

2.1 Newton Method

寻找参数 $\theta$ 最小化损失函数
$minL(\theta)$

在参数空间初始化一个参数 $\hat\theta$ ，寻找一个增量 $\Delta\theta$ ，采用泰勒二阶近似：
$L(\hat\theta+\Delta\theta)\approx \hat{L}(\hat\theta+\Delta\theta)=L(\hat\theta)+\nabla L(\hat\theta)^T\Delta\theta+\frac{1}{2}(\Delta\theta)^T\nabla^2L(\hat\theta)\Delta\theta$

寻找的增量 $\Delta\theta$ 使得 $L(\hat\theta+\Delta\theta)$ 最小，即 $L(\hat\theta+\Delta\theta)\leq L(\hat\theta)$ 且 $\nabla_{\Delta\theta} L(\hat\theta+\Delta\theta)=0$ 所以有：
$\nabla_{\Delta\theta} \Big(L(\hat\theta)+\nabla L(\hat\theta)^T\Delta\theta+\frac{1}{2}(\Delta\theta)^T\nabla^2L(\hat\theta)\Delta\theta\Big)\approx0$

下面将符号稍微写繁琐一点，实际上 $\nabla L(\hat\theta)$ 为Jacobian矩阵 $J(\hat\theta)$ ， $\nabla^2L(\hat\theta)$ 为Hessian矩阵 $H(\hat\theta)$
$\nabla_{\hat\theta} L(\hat\theta)+\nabla_{\hat\theta} ^2L(\hat\theta)\Delta\theta\approx0$

$\Delta\theta\approx-(\nabla_{\hat\theta} ^2L(\hat\theta))^{-1}\nabla_{\hat\theta} L(\hat\theta)=-H(\hat\theta)^{-1}J(\hat\theta)\\ \theta_{t+1}=\theta_t+\Delta\theta_t\approx\theta_t-H_t^{-1}J_t$
所以Newton Method的更新策略为：
$J_t=\nabla L(\theta_t)\\ H_t=\nabla^2L(\theta_t)\\ \Delta_t=-H_t^{-1}J_t\\ \alpha_t=\argmin_{\alpha>0}L(\theta_t+\alpha\Delta_t)\quad Line\quad Search!\\ \theta_{t+1}=\theta_t+\alpha_t\Delta_t$
上述更新策略，有一个line search的过程。通过 $g$ 表示gradient， $x$ 替换 $\theta$ ， $\hat x$ 为更新前的值，亦可简化表述为iLQR需要用到的形式，如下：
Until convergence:
$g=\nabla_xL(\hat x)\\ H=\nabla_x^2L(\hat x)\\ \hat x\leftarrow \argmin_x L(x)-L(\hat x)\approx\frac{1}{2}(x-\hat x)^TH(x-\hat x)+g^T(x-\hat x)$

2.2 Gauss-Newton Method

因为牛顿方法中不仅要求Hessian矩阵，而且还要求它的逆，计算复杂度猛增，许多拟牛顿方法就是通过不同方式去逼近Hessian矩阵的逆。而高斯牛顿方法实际上，是在最小二乘法中的特殊求解，用一阶梯度的信息来逼近Hessian矩阵
$H^{-1}\approx (J^TJ)^{-1}$

2.3 iLQR算法

iLQR背景设定

dynamics model
iLQR的特点是能处理non-linear，stochastic的dynamics model，其模型结构，可从LQR简化为：
$LQR:f(x_t,u_t)= F_t \left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t$

$iLQR:f(x_t,u_t)=N\big(F_t \left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t,\Sigma_t\big)$

LQR
LQR的约束，是一个线性系统，可通过deterministic的dynamics model确定下一状态 $x_{t+1}$ 与当前状态 $x_t$ 、动作 $u_t$ 的关系，cost也可以由 $x_t,u_t$ 确定。
$\begin{aligned} &f\left( {x}_{t}, {u}_{t}\right)= {F}_{t}\left[\begin{array}{l} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]+ {f}_{t}\\ &c\left( {x}_{t}, {u}_{t}\right)=\frac{1}{2}\left[\begin{array}{l} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]^{T} {C}_{t}\left[\begin{array}{l} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]+\left[\begin{array}{l} { {x}_{t}} \\ { {u}_{t}} \end{array}\right]^{T} {c}_{t} \end{aligned}$
iLQR
iLQR的dynamics是非线性的，即下一状态 $x_{t+1}$ 不能靠当前状态 $x_t$ 、当前动作 $u_t$ 线性关系确定，可理解为利用泰勒展开逼近两状态间 $x_t,x_{t+1}$ 假设的高斯分布，对dynamics一阶泰勒近似，对cost二阶泰勒近似，如下：
$\begin{aligned} &f\left( {x}_{t}, {u}_{t}\right) \approx f\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)+\nabla_{ {x}_{t}, {u}_{t}} f\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{l} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]\\ &c\left( {x}_{t}, {u}_{t}\right) \approx c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)+\nabla_{ {x}_{t}, {u}_{t}} c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{c} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]+\frac{1}{2}\left[\begin{array}{c} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]^{T} \nabla_{ {x}_{t}, {u}_{t}}^{2} c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{l} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right] \end{aligned}$

iLQR流程

整理一下有：
$\begin{aligned} &f\left( {x}_{t}, {u}_{t}\right)-f\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right) \approx \nabla_{ {x}_{t}, {u}_{t}} f\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{l} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]\\ &c\left( {x}_{t}, {u}_{t}\right)-c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right) \approx \nabla_{ {x}_{t}, {u}_{t}} c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{c} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]+\frac{1}{2}\left[\begin{array}{c} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]^{T} \nabla_{ {x}_{t}, {u}_{t}}^{2} c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{l} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right] \end{aligned}$

更换一下表述 $\delta x_t=x_t-\hat x_t,\delta u_t=u_t-\hat u_t$ ：
$\bar f(\delta x_t,\delta u_t)=f\left( {x}_{t}, {u}_{t}\right)-f\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right) \approx \nabla_{ {x}_{t}, {u}_{t}} f\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{l} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]=F_t\left[\begin{array}{l} { \delta x_t} \\ { \delta u_t} \end{array}\right]$

$\begin{aligned} \bar{c}(\delta x_t,\delta u_t)=c\left( {x}_{t}, {u}_{t}\right)-c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)&\approx \nabla_{ {x}_{t}, {u}_{t}} c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{c} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]+\frac{1}{2}\left[\begin{array}{c} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]^{T} \nabla_{ {x}_{t}, {u}_{t}}^{2} c\left(\hat{ {x}}_{t}, \hat{ {u}}_{t}\right)\left[\begin{array}{l} { {x}_{t}-\hat{ {x}}_{t}} \\ { {u}_{t}-\hat{ {u}}_{t}} \end{array}\right]\\ &=c_t\left[\begin{array}{l} { \delta x_t} \\ { \delta u_t} \end{array}\right]+\frac{1}{2}\left[\begin{array}{l} { \delta x_t} \\ { \delta u_t} \end{array}\right]^TC_t\left[\begin{array}{l} { \delta x_t} \\ { \delta u_t} \end{array}\right] \end{aligned}$
可看作dynamics是 $\bar f(\delta x_t,\delta u_t)$ ，cost是 $\bar{c}(\delta x_t,\delta u_t)$ ，状态是 $\delta x$ ，动作是 $\delta u$ 的LQR。
所以算法流程如下：
iLQR
iLQR-flow
即使iLQR不是很透彻，只需要知道iLQR的输入是一条人工初始化的轨迹 $\hat x_t,\hat u_t$ ，其中每一个LQR的输入是新旧轨迹之间的差值 $x_t-\hat x_t,u_t-\hat u_t$ ，经过Backward Pass知道控制律 $u_t=K_t(x_t-\hat x_t)+k_t+\hat u_t$ ，再通过Forward Pass知道一条较优轨迹 $x_t,u_t$ ，再输入到下一个LQR模块，如此迭代计算输出最优轨迹，而不像LQR中给定初始状态与目标状态直接计算出最优轨迹，毕竟iLQR的环境是stochastic的。

三、 DDP及iLQR改进

DDP（Differential Dynamics Programming）为了完整性，把iLQR中的dynamics model加了个二阶近似项，此处并不提及DDP的算法流程。
iLQR中的控制率 $u_t=K_t(x_t-\hat x_t)+k_t+\hat u_t$ 可加一个如牛顿法中一样的线性搜寻项line search，避免一节梯度优化时过度，即 $u_t=K_t(x_t-\hat x_t)+\alpha_tk_t+\hat u_t$

四、小总结

LQR中对dynamics model的近似， $x_{t+1}=f(x_t,u_t)\approx F_t \left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t$ ，其中locally linear体现在 $x_{t+1}=F_{x_t}x_t+F_{u_t}u_t+f_t$ 即下一状态与当前状态、动作成局部线性关系，time-varied体现在已知拟合好的 $F_t,f_t$ 随着时间的可变性上。
iLQR相当于对目标函数 $\min_{u_1,..u_T}c(x_1,u_1)+c(f(x_1,u_1),u_2)+\cdots+c(f(f(...()...),u_T)$ 中的dynamics model $f(x_t,u_t)$ 与cost function $c(x_t,u_t)$ 进行了泰勒近似，并采用Newton Method来迭代。
DDP则是扩展了iLQR中的dynamics model使其为泰勒二阶近似。

参考资料

CS285 lec10的PPT
知乎中原一点红的课程笔记
 Medium：Jonathan Hui

补充

LQR与iLQR中stochastic dynamics的具体影响理解得不够透彻。
iLQR中dynamics model假设中 $f(x_t,u_t)=N\big(F_t \left[ \begin{matrix} x_t\\u_t \end{matrix}\right]+f_t,\Sigma_t\big),\Sigma_t$ 的影响，该如何设置，以这个高斯分布为具体模型时运算中 $\Sigma_t$ 是如何被消掉的这一点，这几个问题还没搞懂，待有心力时再补充。