DQN 一 CartPole问题 离散动作问题
状态:当前小车的位置,速度,杆的角度和杆的角速度。【position,v,angle,omega】
动作:把车推到左边,把车推到右边。【0,1】两个动作即可。
指标:尽可能长时间地保持杆的平衡。
DDPG ## 标题
深度确定性策略梯度
Deep Determ
连续动作空间
两个例子:例子1动作为一维向量,例子2动作为多维向量。
一、钟摆动环境
状态:三维向量,摆的角度的正弦值,余弦值,角速度【cos,sin,Theta】
动作:一个单值,力矩作用于摆。
指标:使钟摆尽可能长时间地保持直立。
二、月球着陆器lunar-lander
LunarLanderContinuous-v2
状态:八维向量,【】
动作:二维的浮点数【main engine, left-right engines】
主引擎,范围(0,1)
副引擎,(-1.0,0.5),(0.5,1.0),(-0.5.5.0)
指标:试着让登月舱在两面旗帜之间着陆。
代码实现
(1)四个网络:演员-评论家
演员两个 即策略网络 Class MLPActor
一维动作:输出值为动作1,即深度神经网络的层数依次为state,256,256,action_dim
多维动作:输出值为动作多维,即深度神经网络的层数依次为state,256,256.action_dim
可以最后选择激活函数Tanh等来映射到(-1,1)的取值范围。
评论家两个即评论Q网络 Class MLPQCritic
输出为 该状态采取该动作的Q值,为一个值
则深度神经网络的层数依次为:[state+action_dim],256,256,1
(2)零均值的高斯噪声模型
a=clip()