LfO
文章平均质量分 95
收到求救信号
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LfO: Imitation Learning from Observation with Automatic Discount Scheduling
人类模仿学习过程是一个渐进的过程,不可能说当下的基础技能没学扎实,就模仿未来的目标。本篇文章便从这一个基本思想出发,通过自适应调整强化学习中折扣因子实现这一目标。实验环境设置在pixel-based observation-only 的演示下的模仿学习。原创 2024-12-12 17:31:01 · 821 阅读 · 0 评论 -
LfO: Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification
问题研究在没有奖励的情况下,如何利用成功的演示数据帮助智能体进行强化学习。文章给出的方法是利用这些成功事例来构建奖励函数。原创 2024-05-16 17:21:22 · 416 阅读 · 0 评论
分享