最优控制 LQR 与 Differential Dynamic Programming(DDP) 详细公式推导（下）

no_xycoordinate

已于 2024-05-17 02:00:03 修改

阅读量1k

点赞数 40

文章标签：动态规划算法人工智能机器学习自动驾驶数据结构无人机

于 2024-05-16 01:41:37 首次发布

本文为博主原创作品，著作权归作者所有，转载时请务必在显著位置以超链接方式标明本文出处、作者信息和本声明，未经作者允许不得用于商业目的，否则将追究法律责任。

本文链接：https://blog.csdn.net/no_xycoordinate/article/details/138931219

版权

1. Introduction of Optimal Control (OC)
2. Linear Quadratic Regulator (LQR)
3. Differential Dynamic Programming (DDP)

1. Introduction of Optimal Control (OC)

Please refer to this 最优控制 LQR 与 Differential Dynamic Programming(DDP) 详细公式推导（上）.

2. Linear Quadratic Regulator (LQR)

Please refer to this 最优控制 LQR 与 Differential Dynamic Programming(DDP) 详细公式推导（中）.

2.1 LQR with indirect shooting based on PMP

Please refer to this 最优控制 LQR 与 Differential Dynamic Programming(DDP) 详细公式推导（中）.

2.2 LQR as Quadratic Programming

Please refer to this 最优控制 LQR 与 Differential Dynamic Programming(DDP) 详细公式推导（中）.

2.3 LQR as Dynamic Programming

Please refer to this 最优控制 LQR 与 Differential Dynamic Programming(DDP) 详细公式推导（中）.

3. Differential Dynamic Programming (DDP)

In the last section we discussed the Linear Quadratic Regulator (LQR) problem, which is a special case of the optimal control problem (OCP) where the system dynamics are linear and the cost function is quadratic. How about non-linearities, either in dynamics or cost functions? How can we tackle the value function? In this section, we will discuss a more general framework for solving OCPs, namely Differential Dynamic Programming (DDP) for discrete process. DDP is a trajectory optimization method that is based on the principle of optimality. It is a two-step method that first computes a locally optimal trajectory and then iteratively refines it. The method is iterative and can be used to solve non-linear OCPs with non-linear dynamics and non-linear cost functions.

Recall that we have an OCP defined in the discrete-time domain as follows:
$\begin{aligned}&\operatorname*{min}_{\boldsymbol{u}}&&J\left(\boldsymbol{x}_{0},\boldsymbol{u}_{0,...,N-1}\right)\\&\mathrm{subject~to}&&\bm{x}_{k+1}=\bm{f}(\bm{x}_{k},\bm{u}_{k})\\&&&\bm{x}\in\mathcal{X}\\&&&\bm{u}\in\mathcal{U}\end{aligned}\tag{51}$
where the cost function is defined as:
$\begin{aligned}&J\left(\boldsymbol{x}_{0},\boldsymbol{u}_{0,...,N-1}\right)=\sum_{k=0}^{N-1}\underbrace{\ell(\boldsymbol{x}_{k},\boldsymbol{u}_{k})}_{\text{cost-to-go}}+\underbrace{\ell_{f}(\boldsymbol{x}_{N})}_{\text{terminal cost}}\end{aligned}\tag{52}$

As in DP, we need to define the value function and find the recursion for it. To begin with, the value function is defined as:

$\begin{aligned}V(\boldsymbol{x}_{k})&=\min_{\boldsymbol{u}_{k,\ldots,N-1}}J\left(\boldsymbol{x}_{k},\boldsymbol{u}_{k,\ldots,N-1}\right)\\&=\min_{\boldsymbol{u}_{k,\ldots,N-1}}\left[\sum_{i=k}^{N-1}\ell(\boldsymbol{x}_{i},\boldsymbol{u}_{i})+\ell_{f}(\boldsymbol{x}_{N})\right]\\&=\min_{\boldsymbol{u}_{k}}\ell(\boldsymbol{x}_{k},\boldsymbol{u}_{k})+\min_{\boldsymbol{u}_{k+1,\ldots,N-1}}\left[\sum_{i=k+1}^{N-1}\ell(\boldsymbol{x}_{i},\boldsymbol{u}_{i})+\ell_{f}(\boldsymbol{x}_{N})\right]\\&=\min_{\boldsymbol{u}_{k}}\ell(\boldsymbol{x}_{k},\boldsymbol{u}_{k})+V(\boldsymbol{x}_{k+1})\\\end{aligned}\tag{53}$

Here we don’t stick with the assumption on linear dynamics and quadratic cost function any more, so we can’t use the Riccati equation to solve the value function. Instead, we can use differential-based approximation upon both dynamics and cost function.

3.1 Local Approximation

Start with the dynamics, we can use Taylor expansion to approximate the dynamics around the current state and control input, say $(\bar{\bm{x}},\bar{\bm{u}})$ , then we can approximate the dynamics around $(\bar{\bm{x}},\bar{\bm{u}})$ as:

$\begin{aligned}\frac{d\boldsymbol{x}}{dt}=\boldsymbol{f}(\boldsymbol{x},\boldsymbol{u})=\boldsymbol{f}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})&+\underbrace{\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})(\boldsymbol{x}-\bar{\boldsymbol{x}})}_{\mathrm{linear~term}}+\underbrace{\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})(\boldsymbol{u}-\bar{\boldsymbol{u}})}_{\mathrm{linear~term}}\\&+\underbrace{\frac12\nabla_{\boldsymbol{x}\boldsymbol{x}}^2f(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})(\bm{x}-\bar{\boldsymbol{x}})^2}_{\text{quadratic term}}+\underbrace{\frac12\nabla_{\boldsymbol{u}\boldsymbol{u}}^2f(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})(\boldsymbol{u}-\bar{\boldsymbol{u}})^2}_{\text{quadratic term}}\\&+\underbrace{\boldsymbol{f}_{\boldsymbol{x}\boldsymbol{u}}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})(\boldsymbol{x}-\bar{\boldsymbol{x}})(\boldsymbol{u}-\bar{\boldsymbol{u}})}_{\text{cross quaduatic lerm}}\\&+\mathcal{O}\left(\|\bm{x}-\bar{\boldsymbol{x}}\|^3\right)+\mathcal{O}\left(\|\boldsymbol{u}-\bar{\boldsymbol{u}}\|^3\right)\end{aligned}\tag{54}$

or we can put it into a more compact matrix form with notation $\delta \bm{x}=\bm{x}-\bar{\bm{x}}$ and $\delta \bm{u}=\bm{u}-\bar{\bm{u}}$ :

$\begin{aligned}\frac{d\delta\boldsymbol{x}}{dt}&=\frac{d(\boldsymbol{x}-\bar{\boldsymbol{x}})}{dt}=\boldsymbol{f}(\boldsymbol{x},\boldsymbol{u})-\boldsymbol{f}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})\\&\approx\left[\begin{array}{c}\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})\\\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})\end{array}\right]^T\left[\begin{array}{c}\delta x\\\delta u\end{array}\right]+\frac12\left[\begin{array}{c}\delta x\\\delta u\end{array}\right]^T\left[\begin{array}{c}\nabla_{\boldsymbol{x}\boldsymbol{x}}^2f(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})&\nabla_{\boldsymbol{x}\boldsymbol{u}}^2f(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})\\\nabla_{\boldsymbol{u}\boldsymbol{x}}^2f(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})&\nabla_{\boldsymbol{u}\boldsymbol{u}}^2f(\bar{\boldsymbol{x}},\bar{\boldsymbol{u}})\end{array}\right]\left[\begin{array}{c}\delta x\\\delta u\end{array}\right]\end{aligned}\tag{55}$

Then similarly for the value function, we have
$\begin{aligned}V(\boldsymbol{x}_k,\boldsymbol{u}_k)&=\min_{\boldsymbol{u}_k}\ell(\boldsymbol{x}_k,\boldsymbol{u}_k)+V(\boldsymbol{x}_{k+1})\\ &=\min_{\delta\boldsymbol{u}_{k}}\ell(\bar{\boldsymbol{x}}_{k}+\delta\boldsymbol{x}_{k},\bar{\boldsymbol{u}}_{k}+\delta\boldsymbol{u}_{k})+V(\bar{\boldsymbol{x}}_{k+1}+\delta\boldsymbol{x}_{k+1})\end{aligned}\tag{56}$
as in DP backward iteration, we need to express the value function at next time step $k + 1$ as a function of the current state $\bm{x}_k$ and control $\bm{u}_k$ in order to solve for $\bm{u}_k^*.$ Hence we can use the Taylor expansior again:

$\begin{aligned}V(\bar{\boldsymbol{x}}_{k+1}+\delta\boldsymbol{x}_{k+1})&=V(\bar{\boldsymbol{x}}_{k+1})+\nabla_{\boldsymbol{x}}V(\bar{\boldsymbol{x}}_{k+1})^{T}\delta\boldsymbol{x}_{k+1}+\frac{1}{2}\delta\boldsymbol{x}_{k+1}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V(\bar{\boldsymbol{x}}_{k+1})\delta\boldsymbol{x}_{k+1}\\ &+\mathcal{O}\left(\|\delta\boldsymbol{x}_{k+1}\|^3\right)\end{aligned}\tag{57}$

to go further, we need to express $\delta \bm{x}_{k+1}$ as a function of $\delta\boldsymbol{x}_k$ and $\delta\boldsymbol{u}_k$ , which can be done by the dynamics in Eq.55 as
$\begin{aligned}\delta\boldsymbol{x}_{k+1}&\approx\delta\boldsymbol{x}_{k}+\left[\begin{array}{c}\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\\\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\end{array}\right]^{T}\left[\begin{array}{c}\delta\boldsymbol{x}_{k}\\\delta\boldsymbol{u}_{k}\end{array}\right]\\&+\frac{1}{2}\left[\begin{array}{c}\delta\boldsymbol{x}_{k}\\\delta\boldsymbol{u}_{k}\end{array}\right]^{T}\left[\begin{array}{c}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})&\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\\\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})&\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\end{array}\right]\left[\begin{array}{c}\delta\boldsymbol{x}_{k}\\\delta\boldsymbol{u}_{k}\end{array}\right]\\\end{aligned}\tag{58}$

Here we trim the $2^{nd}$ order term for simplicity, and use the non-matrix for for plugging it back into approximating the value function at $k + 1$ as in Eq.57
$\begin{aligned}\delta\boldsymbol{x}_{k+1}&\approx\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}\\&=\underbrace{(\boldsymbol{I}+\nabla_{\boldsymbol{x}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k}))}_{\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}\end{aligned}\tag{59}$
which yields
$\begin{aligned}V(\bar{\boldsymbol{x}}_{k+1}+\delta\boldsymbol{x}_{k+1})\approx&V(\bar{\boldsymbol{x}}_{k+1})\\&+\nabla_{\boldsymbol{x}}V(\bar{\boldsymbol{x}}_{k+1})^{T}\left[\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}\right]\\&+\frac{1}{2}\left[\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}\right]^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V(\bar{\boldsymbol{x}}_{k+1})\\&+\left[\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}\boldsymbol{f}(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}\right]\end{aligned}\tag{60}$

as shown above, the Taylor expansion equation can be pretty long and will get even longer afterwards, hence we need to adapt some notations to make it more compact.
$V(\bar{\boldsymbol{x}}_{k+1})=V'\\ \bm{f}(\bar{\bm{x}}_k,\bar{\bm{u}}_k)=\bm{f}\tag{61}$

then
$\begin{aligned}V(\bar{\boldsymbol{x}}_{k+1}+\delta\boldsymbol{x}_{k+1})&\approx V^{\prime}+\nabla_{\boldsymbol{x}}V^{\prime T}\left[\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}f\delta\boldsymbol{u}_{k}\right]\\ &\quad\quad+\frac{1}{2}\left[\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}f\delta\boldsymbol{u}_{k}\right]^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\left[\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}f\delta\boldsymbol{u}_{k}\right]\\ &=V^{\prime}+\nabla_{\boldsymbol{x}}V^{\prime T}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{x}}V^{\prime T}\nabla_{\boldsymbol{u}}f\delta\boldsymbol{u}_{k}\\ &\quad\quad+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}f\delta\boldsymbol{u}_{k} \\ &\quad\quad+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}}\bm{f}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^2V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}}\bm{f}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^2V^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}\bm{f}\delta\boldsymbol{u}_{k} \end{aligned}\tag{62}$

By now we have approximated the latter part of the RHS of Eq. 56, and we still need the second order expansion of the running cost function to fully approximate the value function, which is pretty straightforward:
$\begin{aligned}\ell(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&\approx\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})+\nabla_{\boldsymbol{x}}\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{u}_{k}\\&+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}\\&+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{u}_{k}+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}\ell(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})\delta\boldsymbol{x}_{k}\end{aligned}\tag{63}$

Now we can plug Eq 62 and 63 into Eq. 56 and get the final approximation of the value function:
$\begin{aligned} V(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\min_{\boldsymbol{u}_{k}}[\ell+V^{\prime}+(\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}}V^{\prime}+\nabla_{\boldsymbol{x}}\ell)^{T}\delta\boldsymbol{x}_{k}+(\nabla_{\boldsymbol{u}}\boldsymbol{f}^{T}\nabla_{\boldsymbol{x}}V^{\prime}+\nabla_{\boldsymbol{u}}\ell)^{T}\delta\boldsymbol{u}_{k}\\ &+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}(\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}\ell)\delta\boldsymbol{x}_{k}\\ &+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}(\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}\:V^{\prime}\nabla_{\boldsymbol{u}}\boldsymbol{f}+\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}\ell)\delta\boldsymbol{u}_{k}\\ &+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}(\nabla_{\boldsymbol{u}}\boldsymbol{f}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}\ell)\delta\boldsymbol{x}_{k}\\ &+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}(\nabla_{\boldsymbol{u}}\boldsymbol{f}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}\boldsymbol{f}+\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}\ell)\delta\boldsymbol{u}_{k}] \end{aligned}\tag{64}$

theoretically, we can now set $\nabla_{\bm{u}_k}V(\bm{x},\bm{u})=0$ to get the optimal control input $u_k^*$ at step $k$ . However, please note these terms in brackets are all derivatives of the dynamics, cost function and value function, hence we can bring in yet another handy notation to make the formulas more compact:
$S(\boldsymbol{x},\boldsymbol{u})=\ell(\boldsymbol{x},\boldsymbol{u})+V'(\bm{f}(\boldsymbol{x},\boldsymbol{u}))\tag{65}$

which is commonly referred as the state-action value function. Now we can rewrite the ”optimal” value function at stage $k$ as:
$\begin{aligned}V(\boldsymbol{x}_{k})&=\min_{\boldsymbol{u}_{k}}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\\ &=\min_{\boldsymbol{u}_{k}}S(\bar{\boldsymbol{x}}_{k}+\delta\boldsymbol{x},\bar{\boldsymbol{u}}_{k}+\delta\boldsymbol{u})\\ &=\min_{\boldsymbol{u}_{k}}[S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})+\nabla_{\boldsymbol{x}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{u}_{k}\\ &+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}{\boldsymbol{u}}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{u}_{k}\\ &+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{u}_{k}]\end{aligned}\tag{66}$

where the derivatives of the state-action value function are defined as in Eq. 64:
$\begin{aligned} \nabla_{\boldsymbol{x}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})&=\nabla_{\boldsymbol{x}}\tilde{f}^{T}\nabla_{\boldsymbol{x}}V^{\prime}+\nabla_{\boldsymbol{x}}\ell \\ \nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_k,\bar{\boldsymbol{u}}_k)&=\nabla_{\boldsymbol{u}}f^T\nabla_{\boldsymbol{x}}V^{\prime}+\nabla_{\boldsymbol{u}}\ell \\ \nabla_{\boldsymbol{xx}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{xx}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{xx}}^{2}\ell \\ \nabla_{\boldsymbol{xu}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{xx}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}f+\nabla_{\boldsymbol{xu}}^{2}\ell \\ \nabla_{\boldsymbol{ux}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{u}}f^{T}\nabla_{\boldsymbol{xx}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{ux}}^{2}\ell \\ \nabla_{\boldsymbol{uu}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{u}}f^{T}\nabla_{\boldsymbol{xx}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}\boldsymbol{f}+\nabla_{\boldsymbol{uu}}^{2}\ell \end{aligned} \tag{67}$

still, we can re-introduce the second order Taylor expansion of the dynamics which we have omitted earlier:
$\begin{aligned} \nabla_{\boldsymbol{x}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})&=\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}}V^{\prime}+\nabla_{\boldsymbol{x}}\ell\\ \nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})&=\nabla_{\boldsymbol{u}}f^{T}\nabla_{\boldsymbol{x}}V^{\prime}+\nabla_{\boldsymbol{u}}\ell\\ \nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{x}}V^{\prime T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}\ell\\ \nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}\boldsymbol{f}+\nabla_{\boldsymbol{x}}V^{\prime T}\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}\boldsymbol{f}+\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}\ell\\ \nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{u}}\boldsymbol{f}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{x}}\tilde{\boldsymbol{f}}+\nabla_{\boldsymbol{x}}V^{\prime T}\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}\boldsymbol{f}+\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}\ell\\ \nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})&=\nabla_{\boldsymbol{u}}\boldsymbol{f}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}V^{\prime}\nabla_{\boldsymbol{u}}{\boldsymbol{f}}+\nabla_{\boldsymbol{x}}V^{\prime T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}\boldsymbol{f}+\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}\ell \end{aligned}\tag{68}$

these two sets of derivatives make iterative LQR and DDP respectively. The difference between the two methods is that iterative LQR uses the first order Taylor expansion of the dynamics, while DDP uses the second order Taylor expansion of the dynamics.

Now we can solve the optimal control input $\bm{u}_k^*$ by letting the gradient of the value function in Eq. 66 over $\bm{u}$ be zero:

$\begin{aligned}&\nabla_{\boldsymbol{u}}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})=\nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}+\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})+\delta\boldsymbol{u}_{k}^{T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})=0\\&\implies\boldsymbol{u}_{k}^{*}=\underbrace{-\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S^{-1}\nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})}_{\text{feedforward term k}}\underbrace{-\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S^{-1}\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}S\delta\boldsymbol{x}_{k}}_{\text{feedback term K}}\end{aligned}\tag{69}$

3.2 Backward Pass

Given the one step optimal policy $\bm{u}_k^*$ , we can start from the terminal step $k = N$ and working backwards as we did in Dynamic Programming with Bellman’s equation.

Unlike normal DP, with the action-value function introduced, we still need the recursion for $S$ to propagate, and also we are relying heavily on the derivatives of the value function at the next step (in other words, we should calculate and store that for the next iteration backwards at current step), in order to tackle that, we can plug the optimal control input $\bm{u}_k^*$ back into Eq. 66.

$\begin{aligned}V(\boldsymbol{x}_{k})=&S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\\=&S(\bar{\boldsymbol{x}}_{k}+\delta\boldsymbol{x},\bar{\boldsymbol{u}}_{k}+\delta\boldsymbol{u})\\=&S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})+\nabla_{\boldsymbol{x}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{x}_{k}+\nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})^{T}\delta\boldsymbol{u}_{k}^{*}\\&+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{x}_{k}^{T}\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{u}_{k}^{*}\\&+\frac{1}{2}\delta\boldsymbol{u}_{k}^{*T}\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{x}_{k}+\frac{1}{2}\delta\boldsymbol{u}_{k}^{*T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S(\boldsymbol{x}_{k},\boldsymbol{u}_{k})\delta\boldsymbol{u}_{k}^{*}\end{aligned}\tag{70}$

where
$\boldsymbol{u}_{k}^{*}=-\nabla_{\boldsymbol{uu}}^{2}S^{-1}\nabla_{\boldsymbol{u}}S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})-\nabla_{\boldsymbol{uu}}^{2}S^{-1}\nabla_{\boldsymbol{ux}}^{2}S\delta\boldsymbol{x}_{k}\tag{71}$
reorgnizing the above equation leads to
$\begin{aligned}V(\boldsymbol{x}_{k})&=S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})-\frac{1}{2}\nabla_{\boldsymbol{u}}S^{T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S^{-1}\nabla_{\boldsymbol{u}}S+(\nabla_{\boldsymbol{x}}S^{T}-\nabla_{\boldsymbol{u}}S^{T}\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S^{-1}\nabla_{\boldsymbol{u},\boldsymbol{x}}^{2}S)\delta\boldsymbol{x}\\&+\frac{1}{2}\delta\boldsymbol{x}^{T}(\nabla_{\boldsymbol{x}\boldsymbol{x}}^{2}S^{T}-\nabla_{\boldsymbol{x}\boldsymbol{u}}^{2}S\nabla_{\boldsymbol{u}\boldsymbol{u}}^{2}S^{-1}\nabla_{\boldsymbol{u}\boldsymbol{x}}^{2}S)\delta\boldsymbol{x}\end{aligned}\tag{72}$

which has a clear structure of ordered items from 0 to 2, i.e., we can approximately use
$\begin{aligned} \Delta V&=S(\bar{\boldsymbol{x}}_{k},\bar{\boldsymbol{u}}_{k})-\frac{1}{2}\nabla_{u}S^{T}\nabla_{uu}^{2}S^{-1}\nabla_{u}S\\ \nabla_{\bm{x}}V&=\nabla_{x}S^{T}-\nabla_{u}S^{T}\nabla_{uu}^{2}S^{-1}\nabla_{u,x}^{2}S\\ \nabla_{\bm{xx}}V&=\nabla_{xx}^{2}S^{T}-\nabla_{xu}^{2}S\nabla_{uu}^{2}S^{-1}\nabla_{ux}^{2}S\tag{73} \end{aligned}$
for step $k - 1$ .

3.3 Line Search

Please be noted that the second order expansion of dynamics, cost function and value function can only hold locally, it can be possible that the $\bm{u}*$ overshoots and leads to ineﬀiciency or even unstable optimisation process. Hence we can introduce a line-search step for evluation the ferformance of applying scaled feedforward term by $\alpha = 0 ∼ 1$ during the iteration.

3.4 Forward Pass

Once we have finished the backward pass from the last timestep to the first one, we can roll-out the system response forward with dynamics.

Algorithm 1 DDP
Require: Initial State $\bm{x}_0$ , dynamics model $\bm{x}_{i+1}=f(\bm{x}_i,\bm{u}_i)$ , Initial reference control sequence $\bm{U}_0$
Ensure: Optimal Control Sequence $\bm{U}^$ , Optimal State Trajectory $\bm{X}^$
1: function $DDP(f,l,l_f)$
2: Initial State $\bm{x}_0$ , Initial reference control sequence $\bm{U}_0$
3: while not converged do
4: $\nabla_{\bm{x}}V(\boldsymbol{x}_N)=\nabla_{\boldsymbol{x}}\ell_f$
5: $\nabla_{\bm{xx}}V(\boldsymbol{x}_N)=\nabla_{\boldsymbol{x}\bm{x}}\ell_f$
6: for $1\to 0$ do
7: $\bm{k}, \bm{K}\leftarrow Backward\ Pass$
8: end for
9: for $0\to N-1$ do
10: Forward Pass with line search
11: end for
12: return Optimal Trajectory
13: end while
14: end function
15: function Forward Pass
16: Initialization, $\bar {\bm{x}}_0\leftarrow \bm{x}_0, \boldsymbol{U}= \boldsymbol{U}_0, \alpha = 1$
17: for $0\to N-1$ do
18: $\overline{\bm{u}}_i\leftarrow \bm{u}_i+\alpha k[i]+K[i](\overline{\bm{x}}_i-\bm{x}_i)$
19: $\overline{\bm{x}}_{i+1}=f(\overline{\bm{x}}_i,\overline{\bm{u}}_i)$
20: $\boldsymbol{X}[i]\leftarrow\overline{\bm{x}}_i$
21: $\bm{U}[i]\leftarrow\overline{\bm{u}}_i$
22: end for
23: $\alpha=\rho\alpha$
24: $\bm{X}[N]\leftarrow\overline{\bm{x}}_N$
25: $\bm{T}\leftarrow\{\bm{X},\bm{U}\}$
26: $J = J (T)$
27: return $j,\bm T$
28: end function
29: function Backward Pass
30: Initialization, $V_{\boldsymbol{x}}\leftarrow l_{f,\boldsymbol{x}}(\bm{x}_{n}),V_{\boldsymbol{x},\boldsymbol{x}}\leftarrow l_{f,\boldsymbol{x}}(\bm{x}_{n}),k\leftarrow[],K\leftarrow[]$
31: for $1\to 0$ do
32: $S_{x}\leftarrow l_{x}\|_{x_{i}}+(f_{x}^{T}V_{x})\|_{x_{i}}$
33: $S_{u}\leftarrow l_{u}\|_{{\boldsymbol{x}_i}}+(f_{u}^{T}V_{x})\|_{{\boldsymbol{u}_i,\boldsymbol{x}_i}}$
34: $S_{\boldsymbol{x}\boldsymbol{x}}\leftarrow l_{\boldsymbol{x}\boldsymbol{x}}\|_{\boldsymbol{x}_i}+(f_x^TV_{\boldsymbol{xx}}f_x)\|_{\boldsymbol{x}_i}$
35: $S_{\boldsymbol{u}\boldsymbol{u}}\leftarrow l_{\boldsymbol{u}\boldsymbol{u}}\|_{\boldsymbol{u}_i}+(f_u^TV_{\boldsymbol{xx}}f_u)\|_{\boldsymbol{u}_i,\boldsymbol{x}_i,\boldsymbol{u}_i}$
36: $S_{\boldsymbol{u}\boldsymbol{x}}\leftarrow l_{\boldsymbol{u}\boldsymbol{x}}\|_{\boldsymbol{u}_i,\boldsymbol{x}_i}+(f_u^TV_{\boldsymbol{xx}}f_x)\|_{\boldsymbol{u}_i,\boldsymbol{x}_i,\boldsymbol{x}_i}$
37: $\widehat{S}_{\bm{u}}\leftarrow l_{u}\|_{{\boldsymbol{x}_i}}+(f_{u}^{T}(V_{x}+\mu \bm{I}_n))\|_{{\boldsymbol{u}_i,\boldsymbol{x}_i}}$
38: $\widetilde{S}_{\boldsymbol{u}\boldsymbol{u}}\leftarrow l_{\boldsymbol{u}\boldsymbol{u}}\|_{\boldsymbol{u}_i}+(f_u^T(V_{\boldsymbol{xx}}+\mu \bm{I}_n))f_u)\|_{\boldsymbol{u}_i,\boldsymbol{x}_i,\boldsymbol{u}_i}$
39: $\widetilde{S}_{\boldsymbol{u}\boldsymbol{x}}\leftarrow l_{\boldsymbol{u}\boldsymbol{x}}\|_{\boldsymbol{u}_i,\boldsymbol{x}_i}+(f_u^T(V_{\boldsymbol{xx}}+\mu \bm{I}_n)f_x)\|_{\boldsymbol{u}_i,\boldsymbol{x}_i,\boldsymbol{x}_i}$
40: $k[i]\leftarrow-\widetilde{S}_{\boldsymbol{uu}}^{-1}\widehat{S}_{\boldsymbol{u}}$
41: $K[i]\leftarrow -\widetilde{S}_{\boldsymbol{uu}}^{-1}\widetilde{S}_{\boldsymbol{u}\bm x}$
42: $V_{x}\leftarrow S_{x}-K^{T}S_{\boldsymbol{uu}}k$
43: $V_{xx}\leftarrow S_{xx}-K^TS_{uu}K$
44: end for
45: return $\bm{k}$ , $\bm{K}$
46: end function