【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination

  • 论文题目:Dream to Control:Learning Behaviors by Latent Imagination

所解决的问题?

  先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

背景

  强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

  深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。

  通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon的最大奖励来实现规划,像planet那样,虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias,但是并没有去提供对未来长期的期望规划。

所采用的方法?

  作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。

  主要步骤可以分为三大部分:

  1. 从过去的经验数据中学习预测未来的奖励。主要是学环境的表征模型 p ( s t ∣ s t − 1 , a t − 1 , o t ) p\left(s_{t} \mid s_{t-1}, a_{t-1}, o_{t}\right) p(stst1,at1,ot),转移模型 q ( s t ∣ s t − 1 , a t − 1 ) q\left(s_{t} \mid s_{t-1}, a_{t-1}\right) q(stst1,at1)和奖励模型 q ( r t ∣ s t ) q\left(r_{t} \mid s_{t}\right) q(rtst)

  2. 学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories

  从一个真实的模型状态 s t s_{t} st开始往后想象,基于转移模型预测轨迹 s τ ∼ q ( s τ ∣ s τ − 1 , a τ − 1 ) s_{\tau} \sim q\left(s_{\tau} \mid s_{\tau-1}, a_{\tau-1}\right) sτq(sτsτ1,aτ1), 预测奖励 r τ ∼ q ( r τ ∣ s τ ) r_{\tau} \sim q\left(r_{\tau} \mid s_{\tau}\right) rτq(rτsτ), 基于所学习的策略 a τ ∼ q ( a τ ∣ s τ ) a_{\tau} \sim q\left(a_{\tau} \mid s_{\tau}\right) aτq(aτsτ),以最大化期望奖励 E q ( ∑ τ = t ∞ γ τ − t r τ ) \mathrm{E}_{q}\left(\sum_{\tau=t}^{\infty} \gamma^{\tau-t} r_{\tau}\right) Eq(τ=tγτtrτ)为目标更新动作模型 a τ ∼ q ϕ ( a τ ∣ s τ ) a_{\tau} \sim q_{\phi}\left(a_{\tau} \mid s_{\tau}\right) aτqϕ(aτsτ)和值模型 v ψ ( s τ ) ≈ E q ( ⋅ ∣ s τ ) ( ∑ τ = t t + H γ τ − t r τ ) v_{\psi}\left(s_{\tau}\right) \approx \mathrm{E}_{q\left(\cdot \mid s_{\tau}\right)}\left(\sum_{\tau=t}^{t+H} \gamma^{\tau-t} r_{\tau}\right) vψ(sτ)Eq(sτ)(τ=tt+Hγτtrτ)

  在这里还需要注意作者所提出来的这个新型的actor-critic方法:

  • actor model

  动作模型输出的是一个tanh-transformed Gaussian

a τ = tanh ⁡ ( μ ϕ ( s τ ) + σ ϕ ( s τ ) ϵ ) , ϵ ∼ Normal ⁡ ( 0 , I ) a_{\tau}=\tanh \left(\mu_{\phi}\left(s_{\tau}\right)+\sigma_{\phi}\left(s_{\tau}\right) \epsilon\right), \quad \epsilon \sim \operatorname{Normal}(0, \mathbb{I}) aτ=tanh(μϕ(sτ)+σϕ(sτ)ϵ),ϵNormal(0,I)

  动作模型的更新公式为:

max ⁡ ϕ E q θ , q ϕ ( ∑ τ = t t + H   V λ ( s τ ) ) \max _{\phi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \mathrm{~V}_{\lambda}\left(s_{\tau}\right)\right) ϕmaxEqθ,qϕ(τ=tt+H Vλ(sτ))

  • value model

V R ( s τ ) ≐ E q θ , q ϕ ( ∑ n = τ t + H r n ) \mathrm{V}_{\mathrm{R}}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{t+H} r_{n}\right) VR(sτ)Eqθ,qϕ(n=τt+Hrn)

  上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。

V N k ( s τ ) ≐ E q θ , q ϕ ( ∑ n = τ h − 1 γ n − τ r n + γ h − τ v ψ ( s h ) ) with h = min ⁡ ( τ + k , t + H ) \mathrm{V}_{\mathrm{N}}^{k}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{h-1} \gamma^{n-\tau} r_{n}+\gamma^{h-\tau} v_{\psi}\left(s_{h}\right)\right) \quad \text{with} \quad h=\min (\tau+k, t+H) VNk(sτ)Eqθ,qϕ(n=τh1γnτrn+γhτvψ(sh))withh=min(τ+k,t+H)

   V N k V_{N}^{k} VNk能够估计超过 k k k步之后的奖励。

V λ ( s τ ) ≐ ( 1 − λ ) ∑ n = 1 H − 1 λ n − 1   V N n ( s τ ) + λ H − 1   V N H ( s τ ) \mathrm{V}_{\lambda}\left(s_{\tau}\right) \doteq(1-\lambda) \sum_{n=1}^{H-1} \lambda^{n-1} \mathrm{~V}_{\mathrm{N}}^{n}\left(s_{\tau}\right)+\lambda^{H-1} \mathrm{~V}_{\mathrm{N}}^{H}\left(s_{\tau}\right) Vλ(sτ)(1λ)n=1H1λn1 VNn(sτ)+λH1 VNH(sτ)

  dreamer使用的是 V λ \mathrm{V}_{\lambda} Vλ,一种指数加权平均的奖励,用于平衡 k k k步不同的偏差和方差。

  值模型的更新公式为:

min ⁡ ψ E q θ , q ϕ ( ∑ τ = t t + H 1 2 ∥ v ψ ( s τ ) − V λ ( s τ ) ) ∥ 2 ) \left.\min _{\psi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \frac{1}{2} \| v_{\psi}\left(s_{\tau}\right)-\mathrm{V}_{\lambda}\left(s_{\tau}\right)\right) \|^{2}\right) ψminEqθ,qϕ(τ=tt+H21vψ(sτ)Vλ(sτ))2)

  1. 基于所学的动作模型与真实环境交互,收集新的数据。

Dreamer算法

取得的效果?

  在DeepMind Control Suite上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。

  1. 学习一个值函数模型能够使得dreamer更加鲁棒。

  1. 与基于模型和无模型算法对比结果:

所出版信息?作者信息?

  Danijar Hafner,多伦多大学是一个博士生,师从Jimmy BaGeoffrey Hinton。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。

Danijar Hafner

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值