【无标题】

文章介绍了使用DQN解决CartPole问题的离散动作环境,以及DDPG在处理连续动作空间如钟摆动和月球着陆器问题中的应用。通过四个网络(演员和评论家各两个)进行策略和Q值的学习,其中演员网络输出经过激活函数约束的动作,而评论家网络评估状态-动作对的Q值。同时,文章提到了采用零均值的高斯噪声模型来探索行动空间。
摘要由CSDN通过智能技术生成

DQN 一 CartPole问题 离散动作问题
状态:当前小车的位置,速度,杆的角度和杆的角速度。【position,v,angle,omega】
动作:把车推到左边,把车推到右边。【0,1】两个动作即可。
指标:尽可能长时间地保持杆的平衡。
DDPG ## 标题
深度确定性策略梯度
Deep Determ
连续动作空间
两个例子:例子1动作为一维向量,例子2动作为多维向量。

一、钟摆动环境

状态:三维向量,摆的角度的正弦值,余弦值,角速度【cos,sin,Theta】
动作:一个单值,力矩作用于摆。
指标:使钟摆尽可能长时间地保持直立。

二、月球着陆器lunar-lander

LunarLanderContinuous-v2
状态:八维向量,【】
动作:二维的浮点数【main engine, left-right engines】
主引擎,范围(0,1)
副引擎,(-1.0,0.5),(0.5,1.0),(-0.5.5.0)
指标:试着让登月舱在两面旗帜之间着陆。

代码实现

(1)四个网络:演员-评论家

演员两个 即策略网络 Class MLPActor
一维动作:输出值为动作1,即深度神经网络的层数依次为state,256,256,action_dim
多维动作:输出值为动作多维,即深度神经网络的层数依次为state,256,256.action_dim
可以最后选择激活函数Tanh等来映射到(-1,1)的取值范围。
评论家两个即评论Q网络 Class MLPQCritic
输出为 该状态采取该动作的Q值,为一个值
则深度神经网络的层数依次为:[state+action_dim],256,256,1

(2)零均值的高斯噪声模型

a=clip()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值