自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Lovemyse1f的博客

算法笔记

关注

关注数：文章数：1 文章阅读量：388 文章收藏量：1

作者: Lovemyse1f

已毕业，未从事以前方向，悉知！

展开

DDPG_note---百度强化学习公开课

连续动作空间指的是浮点值，如下图所示范围内的取值。怎么输出连续动作呢？上面的随机性策略输出的是离散动作的每个动作的概率。下面的确定性策略，在网络参数固定下来后，输入状态有确定性的动作输出，没有概率的影响。 tanh和softmax激活函数离散动作网络的输出，通过softmax将动作概率限定在1 连续动作网络输出则用tanh将每个动作值的范围限定在[-1,1],再通过scale进行放缩，输出实际的执行动作。 DDPG Deep指用了神经网络 DQN扩展：采用了DQN的工程性方法，见图与DQ

原创 2020-06-26 15:56:26 · 388 阅读 · 0 评论