Deep Deterministic Policy Gradient(DDPG)算法讲解笔记

文章介绍了DDPG算法,一种基于actor-critic模型的深度强化学习方法,它在连续动作空间中引入了BatchNorm等技术以提升训练稳定性。与DQN和传统的离散动作空间方法相比,DDPG在处理高维连续空间问题上更具优势,并且与物理规划算法进行了性能比较。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DDPG

Deep Deterministic Policy Gradient,基于actor-critic模型提出了一个有效的value based连续型空间的RL算法,引入了一些帮助训练稳定的技术。

基础:DQN,Batchnormm,Discretize,微积分

  • background

    DQN改进的推广

    Policy based方法(TRPO)已经在action space取得突破

    传统discretize action space无法拓展到高维空间,阻碍了value based在连续型空间发展

    Ornstein-Uhhlenbeck process(OUN),是一种回归均值的随机过程

    Untitled

    η(t)是白噪声white noise

  • 核心

    推广了DQN到连续action space

    使用同样的网络结构和超参数,这个agent能robust的学习解决20多个环境

    该算法学习到的策略接近甚至超过知道物理模型的planing算法

  • DDPG and DQN

    • DDPG:replay buffer,critic Q网络(s,a|θ^Q) and actor μ(s|θ^μ) 参数: θ^Q and θ^μ、目标Q网络

      DQN:replay buffer 、Q function with random weights θ、目标Q网络

    • DDPG:在连续性act

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值