强化学习之连续动作

最新推荐文章于 2025-03-06 10:51:25 发布

weixin_41962319

最新推荐文章于 2025-03-06 10:51:25 发布

阅读量7.2k

点赞数 19

文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_41962319/article/details/106885449

版权

本文深入解析了深度确定性策略梯度（DDPG）算法，对比了连续动作空间与离散动作空间的区别，详细介绍了DDPG如何结合Actor-Critic结构优化策略网络和Q网络，实现对连续动作的有效学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

连续动作空间：
在离散动作场景下，有几个动作就输出几个动作的概率值，然后在随机抽取，是一个随机性策略。再连续动作场景下，我们直接输入某个动作的浮点数，我们输入的同样的state必然输出同样的action，是一个确定性策略
在这里插入图片描述在连续动作中，我们在输出层后面加一个tanh函数，作用是把输入限制在-1到1之间，然后我们拿到的输入根据实际动作的范围再做下缩放，然后再输出给环境。

DDPG：策略性网络是每一个epsilon才更新一次，DDPG是每一个state更新一次，是单步更新网络。
在这里插入图片描述
DDPG在DQN的基础上加一个策略网络用来直接输出动作值，所以DDPG需要一边学习Q网络一边学习策略网络

这样的网络结构成为Actor-Critic结构：策略网络负责对外展示输出，Q网络负责对策略网络每一个state输出的动作做一个评估，估计这个action未来有多少总收益，也就是去估计这个action的Q值大概是多少，策略性网络需要根据state来做出action，Q网络需要根据state和输出的action来对策略性网络进行打分Q，策略性网络就需要根据这个打分来调整自己的策略也就是更新自身的参数，而Q网络就需要根据环境的反馈reward来调整自己的打分策略也就是更新自身的参数，他的目标是最大化未来总收益。一开始这两个神经网络都是随机的，由于有reward的反馈，所以会做得越来越好。
在这里插入图片描述
DQN最佳的策略是学习出一个很好的Q网络，我们希望选取得动作对应的Q值是最大的。
DDPG用来优化我们策略网络的梯度就是要最大化这个Q值。所以构造loss函数loss= -Q，Q网络的优化方法跟DQN是一样的

由于Q网络的Q_target是不稳定的，所以我们分别给Q网络和策略性网络分别搭建target_Q和target_P，转是用来计算Q_target, 在这里插入图片描述

连续动作输入的是state，输出的是action，下次输入相同的state时，则网络会输出相同的action，是确定性策略。
离散动作输入的是state，输出的是每个action的概率，经过sample之后，才输出agent所要采取的action
连续动作输入的state经过网络输出后，经过tanh激活函数将输出缩放到[-1,1]，在经过实际范围进行缩放，在输出给环境。比如：小车方向的范围是[-2,2]，将tanh输出的x2，再输出给环境。
DDPG：每个state都更新一次网络，是单步更新网络。一边更新Q网络，一边更新策略网络。Q网络根据策略网络输出的action来评估未来有多少种收益，也就是评估策略网络输出的action的Q值是多少。策略网络根据state，输出动作action，Q网络根据state和action，对action打一个分数Q，策略网络根据Q网络的打分也就是Q值，来调整网络模型的参数，争取下次可以做的更好。Q网络根据environment反馈的reward来调整网络模型的参数，最大化未来的收益。刚开始策略网络随机输出动作，Q网络随机打分，通过reward的反馈，以后这两个模型做的更好。策略网络只关注Q网络的打分。更新网络的参数需要计算梯度，因为策略网络只关注Q网络的打分，所以更新网络的参数就是最大化Q值loss。Q网络更新是根据reward的，我们用Q_target = r(真实的reward)+gamma*Q’(下一步的Q),让Q网络的输出Q估计，来拟合Q_target，所以loss=MSE(Q估计,Q_target),由于Q’(一堆值)是不稳的，为了稳定Q_target，DDPG分别给Q网络和策略网络都搭建target network。为了计算Q_target中的Q’中的next action，是通过target_P网络来去输出。所以四个网络需要的s,r,a,s’用经验池存起来。
代码：
model主要是Q网络的和策略网络的搭建，algorithm主要是优化函数，agent主要是和环境的交互。target
model主要是复制一下model即可。