@TOC 自适应动态规划学习笔记(3)
第三天(图全是偷的)
Model Network
书接上回,图(1)中所示的Model Network就是对于系统公式(1) x k + 1 = F ( x k , u k ) x_{k+1}=F(x_k,u_k) xk+1=F(xk,uk)中 F F F的拟合,可以提前离线训练好,也可以和Critic Network、Action Network一起训练。这部分就是利用神经网络系统辨识部分,等后面有空会再记录系统辨识的知识。(推荐《系统辨识理论及MATLAB仿真》刘金琨著)
p:如果 F F F有确定的表达,依旧需要建立Model Network,这是必须的。至于为什么,我母鸡啊。
Critic Network
图(1)中展示展示的ADP的三个基本组成中,Critic Network输出对函数 J J J的估计值 J ^ \hat{J} J^,也就是对下式的估计(详见第一天)
J ( x k , u k ‾ ) = ∑ i = k ∞ γ i − k U ( x i , u i ) (2) J(x_k,\underline{u_k})=\sum_{i=k}^{\infty}\gamma^{i-k}U(x_i,u_i)\tag{2} J(xk,uk)=i=k∑∞γi−kU(xi,ui)(2)
Critic Network的损失函数或者说平方误差由下式确定
∣ ∣ E h ∣ ∣ = 1 2 ∑ k E k 2 = 1 2 ∑ k ( J ^ k − U k − γ J ^ k + 1 ) 2 (6) ||E_h||=\frac{1}{2}\sum_{k}E_k^2=\frac{1}{2}\sum_k(\hat{J}_k-U_k-\gamma\hat{J}_{k+1})^2\tag{6} ∣∣Eh∣∣=21k∑Ek2=21k∑(J^k−Uk−γJ^