解读DDPG算法结构

算法流程

1.主要的架构可以分解成以下几部分进行理解:

       *首先DDPG的特点是actor虽然是PG的架构,但是actor输出的动作值并不是一个概率分布,而是一个确定性的连续动作选择(可以适用连续动作情况),其网络就是给予状态作为输入,然后网络会给予一个动作作为输出,表示在这个状态情况下,最该采取的动作值, 然后对其这个online网络的更新是根据critic网络提供更新依据,也就是下面的式子,会利用到这个s和a得到critic评价出的Q值,然后进行梯度的改变从而告诉网络下次进行选择时该选择怎么采取动作值。【也就是其优化训练online网络时,需要根据critic提供的对这一动作的Q值评估来进行梯度调整】Q是critic提取的,Q值的梯度其实也是critic网络计算提供的。

                        

       在actor网络的 target网络部分则完全是一段 时间的软更新的情况,也就是  过一段时间就进行参数的保存(这个target网络的主要作用就是用于  critic网络的target现实部分进行下一行为的选取,也就是会根据这里现实网络的情况来进行行为的选取)  其实这里也有个疑问,actor网络的输入是状态,输出是唯一的动作,那么critic网络呢,是输入状态和行为、输出Q值吗? 还是说输入状态,输入多个行为的Q值,然后从中再选取?是两种方式中的那个呢.....【经过搜索发现,这里critic网络应该是第一种形式&#

  • 6
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值