强化学习打卡之DDPG

最新推荐文章于 2024-03-16 19:21:11 发布

小白684

最新推荐文章于 2024-03-16 19:21:11 发布

阅读量804

点赞数 1

本文链接：https://blog.csdn.net/weixin_41560321/article/details/109565621

版权

DDPG是强化学习中处理连续动作空间的方法，与DQN不同，它采用确定性策略网络直接输出动作值。DQN无法解决连续动作问题，因为它输出每个动作的Q值。而Actor-Critic通过Policy Gradient实现策略迭代，适用于连续动作。DDPG结合了策略和Q网络，同时学习两者，并利用目标网络和经验回放缓冲区来稳定训练。

摘要由CSDN通过智能技术生成

强化学习打卡之DDPG

DDPG用来解决action是连续的问题，其实有个概念挺混乱的，DQN是用来解决状态空间和动作空间过大的问题，连续的动作变量不就是很大的动作空间吗，为啥它不能解决连续动作变量的问题呢，直到跟上上一章Actor-Critic对比才知道跟神经网络的输入输出有关，因为DQN的神经网络输出的每个动作的Q值，所以不能解决动作时连续的问题，而Actor-Critic可以，因为用到了PolicyGradient进行策略迭代输出动作的方法，Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为，则可能崩溃。
在这里插入图片描述

DDPG用的是确定性的网络，输出的直接是一个动作值，在连续的动作场景下，比如说我要输出这个机器人手臂弯曲的角度，这样子的一个动作，我们就输出一个具体的浮点数。而对随机性的策略来说，输入某一个状态 s，采取某一个 action 的可能性并不是百分之百，而是有一个概率 P 的，就好像抽奖一样，根据概率随机抽取一个动作。
在这里插入图片描述上面的神经网络输出是离散动作的概率，和为1，下面神经网络输出的是一个动作值。