强化学习-模仿学习
文章平均质量分 92
nopSled
一周一更
展开
-
Behavior Transformers: Cloning k modes with one stone翻译
创造可以在复杂环境中聪明行动的agent一直是机器学习中的一个长期问题。尽管强化学习(RL)在行为学习方面取得了重大进步,但其成功是以高样本复杂性为代价的。由于没有先验数据,SOTA RL方法就需要在1-10M的奖赏标注的样本下进行在线交互,以进行基准控制任务。这与视觉和语言任务形成了鲜明的对比,在这些任务中,遵循预训练模型和数据驱动范式,它能够有效的解决下游任务。那么,我们如何从预收集的数据中学习行为先验?一个选择是离线RL,离线数据集加上策略优化可以学习特定于任务的行为。翻译 2023-03-18 16:42:42 · 211 阅读 · 0 评论 -
Watch and Match: Supercharging Imitation with Regularized Optimal Transport翻译
模仿学习(IL)具有悠久的历史,可以被分为两个主要的框架,即行为克隆(BC)和逆强化学习(IRL)。BC利用有监督学习来获得策略,在给定演示样例的观测时,最大化对应演示动作的似然。尽管这允许在没有在线交互的情况下进行训练,但时在实际使用期间,它会面临分布不匹配的问题。另一方面,在利用RL通过在线环境来优化策略之前,IRL会从演示样例轨迹中推理出基本的奖赏函数。这使得策略即使缺乏特定演示任务的奖赏,也能够鲁棒地解决该任务。翻译 2022-12-20 14:34:48 · 357 阅读 · 1 评论