DDPG(含文章与代码)

DDPG是一种off-policy、actor-critic的深度强化学习算法,适用于连续动作空间问题。它结合了Deep Q-learning和DPN的优点,通过策略网络与价值网络的协同学习,表现出优异的性能。在训练中,加入噪声以增强智能体的探索能力。算法利用TD算法更新价值网络,确定性策略梯度更新策略网络,同时采用软更新保持目标网络与原网络的稳定性。DDPG具有良好的泛化能力,广泛应用于各种连续动作空间的挑战。代码和文章链接已提供。
摘要由CSDN通过智能技术生成

DDPG

简介

​ 基于Deep Q-learning对连续动作空间的处理以及DPN的成功,提出了一种model-free(事先不知道环境的一切变化,这是与model-based的区别),actor-critic的算法用于解决连续空间问题。该算法可以直接对输入图片进行处理,并且表现非常优异。

神经网络应用于强化学习虽然取得了较好的成果,但是DQN只可以处理离散动作空间。当然,可以通过连续动作空间离散化进行处理,但是这样会随着维度的提升,计算量指数级增长,还会导致部分信息的丢失。在先前的工作当中,只用DQN或是只用DPN的效果都不是很好。最近有几点改进使得DQN的鲁棒性有所提高。(1) replay buffer的使用使得样本之间的联系降低;(2)使用目标价值网络和TD算法进行更新。(3)网络搭建过程中使用Batch Normalization。

算法

c r i t i c   n e t w o r k Q ( s , a ∣ θ Q ) t a r g e t   c r i t i c   n e t w o r k Q ˊ ( s , a ∣ θ Q ˊ ) a c t o r   n

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值