强化学习论文(6): Distributed Distributional Deterministic Policy Gradients (D4PG)

分布式-分布DDPG,发表在ICLR 2018
论文链接:https://arxiv.org/pdf/1804.08617.pdf

要点总结

从两个方面对DDPG进行扩展:

  • Distributed:对Actor,将单一Actor扩展至多个,并行收集experience,如算法Actor部分所示
  • Distributional:对Critic,将Critic由一个函数扩展成一个分布

在DDPG中:
Q π ( x , a ) = E [ ∑ t = 0 ∞ γ t r ( x t , a t ) ]  where  x 0 = x , a 0 = a x t ∼ p ( ⋅ ∣ x t − 1 , a t − 1 ) a t = π ( x t ) \begin{aligned} Q_{\pi}(\mathbf{x}, \mathbf{a})=\mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^{t} r\left(\mathbf{x}_{t}, \mathbf{a}_{t}\right)\right] \text { where } & \mathbf{x}_{0}=\mathbf{x}, \mathbf{a}_{0}=\mathbf{a} \\ & \mathbf{x}_{t} \sim p\left(\cdot | \mathbf{x}_{t-1}, \mathbf{a}_{t-1}\right) \\ & \mathbf{a}_{t}=\pi\left(\mathbf{x}_{t}\right) \end{aligned} Qπ(x,a)=E[t=0γtr(xt,at)] where 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值