ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics
摘要
强化学习(Reinforcement Learning, RL)在机器人任务中展现了出色的性能,但其成功往往取决于复杂的、特定的奖励函数的设计。研究人员已经探索了大型语言模型(Large Language Models, LLMs)如何能够让非专家用户更容易地指定奖励函数。然而,LLMs很难平衡不同功能的重要性,对分布外的机器人任务泛化性能较差,且仅依靠基于文本的描述无法恰当地表示(represent)问题。为了解决这些挑战,本文提出了ELEMENTAL(intEractive LEarning froM dEmoNstraTion And Language),这是一个新颖的框架,它结合了自然语言指导(natural language guidance)和视觉用户示范(visual user demonstrations),以更好地将机器人行为与用户意图对齐。通过引入视觉输入,ELEMENTAL克服了 text-only task specifications 的局限性,同时利用逆强化学习(Inverse Reinforcement Learning, IRL)来平衡特征权重并最优地匹配示范行为。ELEMENTAL还通过自反思(self-reflection)引入了一个迭代反馈循环,以改进特征、奖励和策略学习。本文的实验结果表明,ELEMENTAL在任务成功率上比先前的工作提高了42.3%,并在分布外任务上实现了更好的41.3%的泛化性能,突显了其在LfD中的鲁棒性。
1 介绍
强化学习(Reinforcement Learning, RL)已被证明是一种强大的工具,能够使用机器人在广泛的领域执行复杂的任务,从操纵(manipulation)(Kober et al., 2013_RL_in_Robotics; Levine et al., 2016_Visuomotor_Policies)到导航(navigation)(Tai et al., 2017_Mapless_Navigation; Zhu et al., 2017_Visual_Navigation)。然而,RL的有效性取决于精心设计的奖励函数,能否准确反映所需行为。如果没有sophisticated的奖励函数,强化学习智能体往往难以学出有效的策略(Matignon et al., 2006_Goal-Directed);更糟糕的是,设计不当的奖励函数可能导致强化学习智能体产生意想不到的结果(Gupta et al., 2024_Behavior_Alignment)。Booth等人(2023_Perils_Reward_Design)表明,即使是专家,奖励设定(reward specification)也绝非易事,而且由于用户偏好具有多样性和内涵性,设计出与终端用户期望相一致的奖励函数十分具有挑战性(Abouelazm et al., 2024_Context_of_Autonomous_Driving)。
考虑到大模型的近期进展(例如,LLMs和VLM)在文本理解(Bommasani et al., 2021_Foundation_Models; Touvron et al., 2023_LLaMA)和涌现能力(Kojima et al., 2022_LLM_Zero_Shot; Wei et al., 2022_Emergent_Abilities),研究人员已经探索利用将LLMs用于 reward engineering。