Emergence of Locomotion Behaviours in Rich Environments(丰富环境中运动行为的出现)
作者:Nicolas Heess, Dhruva TB et al.
单位:DeepMind
论文发表期刊:Artificial Intelligence Computer and information sciences
论文发表时间:10 Jul 2017
论文查看网址:https://arxiv.org/abs/1707.02286
论文贡献:通过对训练环境进行设置,以课程的方式,让强化学习智能体在丰富的环境中由简单任务逐步学习,并伴随着智能体的性能加强来增加任务难度来持续学习。证明可以在有限的奖励信号的情况下,通过对环境的设计让智能体获得丰富而有效的行为,而不需要在奖励函数的设计上太过深入。
一. 写作动机
Why:
在深度强化学习领域,伴随着策略梯度(Policy gradient)算法的兴起,在连续状态空间连续动作空间的任务中取得显著的进步。但都需要针对任务特性来定义明确的奖励函数(Reward function)并利用奖励信号(Reward)对智能体的策略 π θ \pi _{\theta} πθ进行优化,引导智能体的动作行为能够按照预期行事。但是在具有复杂动作行为的任务环境中,通常奖励函数面对这些复杂动作,对智能体的引导是不显著的,即 智能体很难学会复杂动作行为。
What:
奖励函数的设计对于强化学习任务来说是非常重要的,奖励函数的稍微改动都会对智能体的动作行为产生影响。奖励函数产生的即时奖励可表示为 r = R ( s , a ) r=R(s,a) r=R(s,a) 。因此针对具有复杂动作行为的任务环境,为了让智能体在环境中的得分能够收敛,会设计趋于谨慎的奖励函数。但同时谨慎的奖励函数就会回避掉强化学习的主要挑战:智能体直接从有限的奖励信号中学习、并引导策略,以期望智能体能够具有丰富而有效的动作行为。
How:
论文作者提出,在环境本身包含足够的丰富性和多样性的情况下,使用 设置不同难度级别的环境(障碍物)来引导智能体从有限的环境中找到解决问题的方案 的方法,就能利用简单的奖励函数来产生丰富而稳健的动作行为。这样的设置,既能够避免因为奖励函数和任务环境导致的过度拟合,又能让智能体找到在环境的各种挑战下都适用的特殊解决方案。
二. 背景介绍
1. Policy Gradient(策略梯度)
策略梯度算法是直接对策略 π \pi π进行学习,在深度强化学习中使用深度神经网络来拟合策略函数(Policy function),因此对于随机策略 π θ ( a ∣ s ) \pi{_\theta}(a|s) πθ(a∣s)的目标是希望 最大化神经网络参数 θ \theta θ 使得策略 π θ \pi{_\theta} πθ 在动作行为上的期望回报最大化 J ( θ ) = E ρ θ ( τ ) [ ∑ t γ t − 1 r ( s t , a t ) ] J(\theta)= \mathbb{E}_{\rho_{\theta}(\tau ) }\left [ {\textstyle \sum_{t}^{}\gamma^{t-1} r (s_t,a_t)} \right ] J(θ)=Eρθ(τ)[∑tγt−1r(st,at)]
其中 τ \tau τ 是智能体与动态环境交互得到的轨迹: τ = ( s 0 , a 0 , s 1 , a 1 … ) \tau=(s_0,a_0,s_1,a_1\dots ) τ=(s0,a0,s1,a1…)
引导状态转移的主要因素有 智能体的策略 π θ \pi{_\theta} πθ 和 环境本身设置好的状态转移概率,为: p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t) p(st+1∣st,at),其中 a t = π θ ( s t ) a_t=\pi{_\theta}(s_t) at=πθ(st)
轨迹 τ \tau τ发生的概率是: ρ θ ( τ ) = p ( s 0 ) π ( a 0 ∣ s 0 ) p ( s 1 ∣ s 0 , a 0 ) … = p ( s 0 ) ∏ t = 1 T p θ ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) \rho _{\theta }(\tau) = p(s_0)\pi (a_0|s_0)p(s_1|s_0,a_0)\dots \\=p(s_0)\prod_{t=1}^{T}p_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t) ρθ(τ)=p(s0)π(a0∣s