强化学习论文(1): Soft Actor-Critic

加州伯克利大学发布的 off-policy model-free强化学习算法,soft actor-critic(SAC)
论文地址为:Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
假定已经对经典强化学习建模和基本Actor-Critic方法有所了解。

摘要

模型无关(model-free)深度强化学习算法面临两个主要挑战:高采样复杂度脆弱的收敛性,因此严重依赖调参,这两个挑战限制了强化学习向现实应用的推广。
在这篇论文中,作者基于最大熵强化学习算法框架,提出了一个off-policy actor-critic 深度强化学习算法。最大熵强化学习要求actor在同时最大化期望策略分布的熵,也就是说,在保证任务成果的同时希望策略尽可能的随机。
这篇论文引入了稳定的随机actor-critic形式,并使用off-policy方式更新参数,在一系列连续控制基准上达到state-of-the-art 结果,并且对不同的随机种子表现稳定。

引言

介绍一些论文引言中提到的关键点或强化学习中的知识点。

  1. on-policy 与 off-policy:是对强化学习算法参数更新方式的划分。
    on-policy 要求每一次参数更新时,都需要同环境交互,采集新的经验样本来使用,也就是“边交互边学习”。当任务复杂时,需要的更新步骤和样本量激增,极大的增加了采样复杂度。
    off-policy 致力于重用过去的经验样本,特别是对Q-learning类的方法很适用。但是当off-policy和神经网络相结合时,对稳定性和收敛性造成了很大的挑战,特别是在连续的状态和动作空间。此类算法的典型代表是DDPG,采样复杂度低,优化能力强,但是收敛性非常脆弱且对超参数敏感。
  2. actor-critic 实际上就是policy-iteration(策略迭代)方法的参数化,包含两个交替步骤:1)policy evaluation:估计策略的值函数(相当于critic);2)policy improvement:根据值函数得到一个更优的新策略(相当于actor)。在复杂问题中,往往难以让某一个单独收敛,故采用联合优化方式。
  3. 标准的强化学习最大化累积期望 reward ∑ t E ( s t , a t ) ∼ ρ π [ r ( s t , a t ) ] \sum_tE_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)] tE(st,at)ρπ[r(st,at)]
    最大熵强化学习的优化目标为:
    J ( π ) = ∑ t = 0 T E ( s t , a t ) ∼ ρ π [ r ( s t , a t ) + α H ( π ( ⋅ ∣ s t ) ) ] . J(\pi)=\sum_{t=0}^TE_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)+\alpha H(\pi(\cdot|s_t))]. J(π)=t=0TE(st,at)ρπ[r(st,at)+αH(π(st))].超参数 α \alpha α控制熵项的相对重要性,在后文推导中省略,因为等价于给 reward 项乘 α − 1 \alpha^{-1} α1

这篇论文就是要讨论在连续的状态和动作空间如何设计有效且稳定的深度强化学习算法。
最大熵强化学习在标准的最大reward强化目标上增加了一个最大熵项,提高了探索能力和鲁棒性。
这篇文章提出的SAC,既降低了采样复杂度,又提高了收敛稳定性。SAC包含三个关键因素:
一个actor-critic结构,包括分离的策略网络和值函数网络,其中策略网络是一个随机actor;
一个off-policy更新方式,基于历史经验样本进行参数更新;
一个熵最大化目标,保证稳定性和探索能力。

理论推导:soft policy iteration

和actor-critic类似,soft actor-critic可以从一个最大熵版本的策略迭代中推导出来。

soft policy evaluation

T π Q ( s t , a t ) ≜ r ( s t , a t ) + γ E s t + 1 ∼ p [ V ( s t + 1 ) ] T^{\pi}Q(s_t,a_t)\triangleq r(s_t,a_t)+\gamma E_{s_{t+1}\sim p}[V(s_{t+1})] TπQ(st,at)r(st,a

  • 11
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值