DDPG 算法

最新推荐文章于 2024-06-12 15:38:56 发布

hezzfew

最新推荐文章于 2024-06-12 15:38:56 发布

阅读量1.1w

点赞数 24

分类专栏：数据分析机器学习

本文链接：https://blog.csdn.net/hezzfew/article/details/109534023

版权

1 离散动作 vs. 连续动作

在这里插入图片描述
离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。

在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。
但在实际情况中，经常会遇到连续动作空间的情况，也就是输出的动作是不可数的。比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。

对于这些连续的动作控制空间，Q-learning、DQN 等算法是没有办法处理的。那我们怎么输出连续的动作呢，这个时候，万能的神经网络又出现了。在上面这个离散动作的场景下，比如说我输出上下或是停止这几个动作。有几个动作，神经网络就输出几个概率值，我们用
来表示这个随机性的策略。在连续的动作场景下，比如说我要输出这个机器人手臂弯曲的角度，这样子的一个动作，我们就输出一个具体的浮点数。我们用
来代表这个确定性的策略。

我们再解释一下随机性策略跟确定性策略。

关注

专栏目录