![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模仿学习
文章平均质量分 94
收到求救信号
这个作者很懒,什么都没留下…
展开
-
Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning
ICML 2024。原创 2024-06-12 21:09:02 · 748 阅读 · 0 评论 -
Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement
max-aggregation 系列的第三篇文章,同样研究从多个次优策略中选择,从而引导智能体在线高效学习。原创 2024-05-15 23:10:28 · 948 阅读 · 0 评论 -
Online RL + IL : Active Policy Improvement from Multiple Black-box Oracles
ICML 2023紧接上一篇MAMBA,本文在同种问题设定下的在线模仿学习方法。原创 2024-05-15 15:45:11 · 998 阅读 · 0 评论 -
Online RL + IL :Policy Improvement via Imitation of Multiple Oracles
NIPS 2020如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。原创 2024-05-15 10:31:21 · 344 阅读 · 0 评论 -
Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning
文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标。是只采用任务原始奖励所优化的辅助策略。,使得策略优化更依赖于下一次迭代中的专家。获得更高的奖励,则 λ 的增加会降低教师的重要性。解决该问题分两步,第一步优化策略。原创 2024-05-14 17:44:02 · 624 阅读 · 0 评论 -
模仿学习:Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Represent
CoRL 2023。原创 2024-03-26 09:47:36 · 552 阅读 · 0 评论 -
Offline RL: A Policy-Guided Imitation Approach for Offline Reinforcement Learning
NIPS 2022。原创 2024-03-20 17:40:51 · 775 阅读 · 0 评论 -
Offline RL: BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning
NIPS 2020。原创 2024-03-20 13:57:33 · 713 阅读 · 0 评论 -
Imitation Learning:Imitation Learning as State Matching via Differentiable Physic
CVPR 2023。原创 2024-03-06 19:20:17 · 990 阅读 · 0 评论 -
2024/4/25:Hybrid Policy Optimization from Imperfect Demonstrations
利用高质量演示数据帮助智能体在稀疏奖励环境探索,是一种可行方法。但是这种演示数据的获取困难,因此探索如何使用次优数据非常重要。本文提出HYPO算法,利用模仿学习训练离线引导策略,帮助智能体在线探索,同时避免次优演示导致的保守策略。原创 2024-02-26 13:45:56 · 696 阅读 · 1 评论 -
2024/2/24: 模仿学习 Eliciting Compatible Demonstrations for Multi-Human Imitation Learning
利用专家数据进行模仿学习是机器人学习操作的强大方法。但人工提供的数据往往具有同质性、低方差特点,反映出对应任务以及最优策略的单一。但是人类的行为是具有异质性,一种任务可以有不同解。本文提出一种在线交互式模仿学习框架,通过迭代收集新的演示数据不断改进策略。为了防止新加入的演示不兼容,这项工作设计了一种方法:1)在给定基本策略的情况下测量新演示的兼容性,以及 2)主动从新用户那里引出更兼容的演示。原创 2024-02-24 17:47:50 · 739 阅读 · 0 评论 -
2024/2/23:VLM与模仿学习:RoboCLIP: One Demonstration is Enough to Learn Robot Policie
视频文本模型囊括了丰富的领域知识,利用它判断真实交互数据与演示的相似性,可以实现少量演示高效引导智能体在线交互过程。文章也提到存在问题:1)该奖励完全依靠VLM模型,导致模型中存在的未知的隐式偏差带入到RL中。2)在某些下游任务中微调导致不稳定 3)未来还需探索不固定长度进行模型训练。原创 2024-02-24 11:25:50 · 748 阅读 · 0 评论