JoyRL论文阅读《Emergence of Locomotion Behaviours in Rich Environments, Nicolas Heess, Dhruva TB et al.》-CSDN博客

本文链接：https://blog.csdn.net/weixin_41221544/article/details/128294108

本文介绍了Nicolas Heess等人在《Emergence of Locomotion Behaviours in Rich Environments》论文中探讨的问题，即如何在有限的奖励信号下，通过环境设计让智能体学习复杂行为。研究发现，通过设置不同难度级别的环境和策略优化算法如PPO，智能体如双足和四足机器人能在复杂环境中学会跳跃、爬越等技能，而不需要复杂的奖励函数。此外，论文强调了环境的丰富性和多样性对于智能体学习行为的重要性，以及课程式训练的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Emergence of Locomotion Behaviours in Rich Environments（丰富环境中运动行为的出现）

作者：Nicolas Heess, Dhruva TB et al.
单位：DeepMind
论文发表期刊：Artificial Intelligence Computer and information sciences
论文发表时间：10 Jul 2017
论文查看网址：https://arxiv.org/abs/1707.02286

论文贡献：通过对训练环境进行设置，以课程的方式，让强化学习智能体在丰富的环境中由简单任务逐步学习，并伴随着智能体的性能加强来增加任务难度来持续学习。证明可以在有限的奖励信号的情况下，通过对环境的设计让智能体获得丰富而有效的行为，而不需要在奖励函数的设计上太过深入。

一. 写作动机

Why:
在深度强化学习领域，伴随着策略梯度（Policy gradient）算法的兴起，在连续状态空间连续动作空间的任务中取得显著的进步。但都需要针对任务特性来定义明确的奖励函数（Reward function）并利用奖励信号（Reward）对智能体的策略 $\pi _{\theta}$ 进行优化，引导智能体的动作行为能够按照预期行事。但是在具有复杂动作行为的任务环境中，通常奖励函数面对这些复杂动作，对智能体的引导是不显著的，即智能体很难学会复杂动作行为。

What:
奖励函数的设计对于强化学习任务来说是非常重要的，奖励函数的稍微改动都会对智能体的动作行为产生影响。奖励函数产生的即时奖励可表示为 $r = R (s, a)$ 。因此针对具有复杂动作行为的任务环境，为了让智能体在环境中的得分能够收敛，会设计趋于谨慎的奖励函数。但同时谨慎的奖励函数就会回避掉强化学习的主要挑战：智能体直接从有限的奖励信号中学习、并引导策略，以期望智能体能够具有丰富而有效的动作行为。

How:
论文作者提出，在环境本身包含足够的丰富性和多样性的情况下，使用 设置不同难度级别的环境（障碍物）来引导智能体从有限的环境中找到解决问题的方案 的方法，就能利用简单的奖励函数来产生丰富而稳健的动作行为。这样的设置，既能够避免因为奖励函数和任务环境导致的过度拟合，又能让智能体找到在环境的各种挑战下都适用的特殊解决方案。

二. 背景介绍

1. Policy Gradient（策略梯度）

策略梯度算法是直接对策略 $\pi$ 进行学习，在深度强化学习中使用深度神经网络来拟合策略函数（Policy function），因此对于随机策略 $\pi{_\theta}(a|s)$ 的目标是希望最大化神经网络参数 $\theta$ 使得策略 $\pi{_\theta}$ 在动作行为上的期望回报最大化 $J(\theta)= \mathbb{E}_{\rho_{\theta}(\tau ) }\left [ {\textstyle \sum_{t}^{}\gamma^{t-1} r (s_t,a_t)} \right ]$
其中 $\tau$ 是智能体与动态环境交互得到的轨迹： $\tau=(s_0,a_0,s_1,a_1\dots )$