【无标题】

Beyondxiaobai_123

已于 2023-04-06 19:23:33 修改

阅读量75

点赞数

文章标签：机器学习 python 算法

于 2023-03-20 19:06:38 首次发布

本文链接：https://blog.csdn.net/weixin_41636303/article/details/129673775

版权

文章介绍了使用DQN解决CartPole问题的离散动作环境，以及DDPG在处理连续动作空间如钟摆动和月球着陆器问题中的应用。通过四个网络（演员和评论家各两个）进行策略和Q值的学习，其中演员网络输出经过激活函数约束的动作，而评论家网络评估状态-动作对的Q值。同时，文章提到了采用零均值的高斯噪声模型来探索行动空间。

摘要由CSDN通过智能技术生成

DQN 一 CartPole问题离散动作问题
状态：当前小车的位置，速度，杆的角度和杆的角速度。【position,v,angle,omega】
动作：把车推到左边，把车推到右边。【0，1】两个动作即可。
指标：尽可能长时间地保持杆的平衡。
DDPG ## 标题
深度确定性策略梯度
Deep Determ
连续动作空间
两个例子：例子1动作为一维向量，例子2动作为多维向量。

一、钟摆动环境

状态：三维向量，摆的角度的正弦值，余弦值，角速度【cos,sin,Theta】
动作：一个单值，力矩作用于摆。
指标：使钟摆尽可能长时间地保持直立。

二、月球着陆器lunar-lander

LunarLanderContinuous-v2
状态：八维向量，【】
动作：二维的浮点数【main engine, left-right engines】
主引擎，范围（0,1）
副引擎，（-1.0,0.5），（0.5,1.0），（-0.5.5.0）
指标：试着让登月舱在两面旗帜之间着陆。

代码实现

（1）四个网络：演员-评论家

演员两个即策略网络 Class MLPActor
一维动作：输出值为动作1，即深度神经网络的层数依次为state,256,256,action_dim
多维动作：输出值为动作多维，即深度神经网络的层数依次为state,256,256.action_dim
可以最后选择激活函数Tanh等来映射到（-1,1）的取值范围。
评论家两个即评论Q网络 Class MLPQCritic
输出为该状态采取该动作的Q值，为一个值
则深度神经网络的层数依次为：[state+action_dim],256,256,1