自适应动态规划学习笔记(3)

本文是自适应动态规划(ADP)学习笔记的第三部分,介绍了Model Network、Critic Network和Action Network的原理及训练方法。Model Network用于系统模型的拟合,Critic Network估计代价函数,Action Network则基于Critic Network的输出生成控制信号。文中还探讨了ADP的不同类别,并提及与强化学习的关系。
摘要由CSDN通过智能技术生成

@TOC 自适应动态规划学习笔记(3)

第三天(图全是偷的)

在这里插入图片描述

图1 ADP的三个部分

Model Network

 书接上回,图(1)中所示的Model Network就是对于系统公式(1) x k + 1 = F ( x k , u k ) x_{k+1}=F(x_k,u_k) xk+1=F(xk,uk) F F F的拟合,可以提前离线训练好,也可以和Critic Network、Action Network一起训练。这部分就是利用神经网络系统辨识部分,等后面有空会再记录系统辨识的知识。(推荐《系统辨识理论及MATLAB仿真》刘金琨著)
p:如果 F F F有确定的表达,依旧需要建立Model Network,这是必须的。至于为什么,我母鸡啊。

Critic Network

 图(1)中展示展示的ADP的三个基本组成中,Critic Network输出对函数 J J J的估计值 J ^ \hat{J} J^,也就是对下式的估计(详见第一天)

J ( x k , u k ‾ ) = ∑ i = k ∞ γ i − k U ( x i , u i ) (2) J(x_k,\underline{u_k})=\sum_{i=k}^{\infty}\gamma^{i-k}U(x_i,u_i)\tag{2} J(xk,uk)=i=kγikU(xi,ui)(2)

Critic Network的损失函数或者说平方误差由下式确定
∣ ∣ E h ∣ ∣ = 1 2 ∑ k E k 2 = 1 2 ∑ k ( J ^ k − U k − γ J ^ k + 1 ) 2 (6) ||E_h||=\frac{1}{2}\sum_{k}E_k^2=\frac{1}{2}\sum_k(\hat{J}_k-U_k-\gamma\hat{J}_{k+1})^2\tag{6} Eh=21kEk2=21k(J^kUkγJ^

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值