DDPG_note---百度强化学习公开课
连续动作空间
指的是浮点值,如下图所示范围内的取值。
怎么输出连续动作呢?
上面的随机性策略输出的是离散动作的每个动作的概率。
下面的确定性策略,在网络参数固定下来后,输入状态有确定性的动作输出,没有概率的影响。
tanh和softmax激活函数
离散动作网络的输出,通过softmax将动作概率限定在1
连续动作网络输出则用tanh将每个动作值的范围限定在[-1,1],再通过scale进行放缩,输出实际的执行动作。
DDPG
Deep指用了神经网络
DQN扩展:采用了DQN的工程性方法,见图
与DQ
原创
2020-06-26 15:56:26 ·
388 阅读 ·
0 评论