![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Offline RL
文章平均质量分 92
卉卉卉大爷
这个作者很懒,什么都没留下…
展开
-
【论文分享】如何完成 Offline RL 的在线部署?工业界应用必不可少!!
1、利用 VAE 的 Log-likelihood 可视化 两个数据集分布之间的差异的trick可以借鉴;2、思路简单易懂、还有效……提出了一个简单的框架,包括balanced replay scheme和pessimistic Q-ensemble scheme,这两个在 offline RL 进行 online 部署的时候回非常有用,尤其是采 pessimistic Q-value 对 novel states 进行评价。原创 2022-10-13 00:18:55 · 567 阅读 · 1 评论 -
(CQL)Conservative Q-Learning for Offline Reinforcement Learning
Abstract\qquad 在大规模、现实世界应用中,强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。Offline RLOffline\; RLOfflineRL 算法旨在利用 previously−collectedpreviously-collectedpreviously−collected、static datasets without further interactionstatic \; datasets\; without \; further \;原创 2020-12-24 21:59:04 · 1598 阅读 · 0 评论 -
An Optimistic Perspective on Offline Reinforcement Learning(ICML2020)
Abstract\quad 该文章利用了 the DQN replay dataset 研究了Offline RL,该数据集包含了一个 DQN agent 在60款Atari 2600游戏上的 the entire replay experience 。\quad 我们证明了 recent off-policy deep RL 算法,即使仅仅在 replay dataset 上训练,表现也比训练好的 DQN agent 要好。\quad 为了增强 offline setting 的泛化能力,我们提出了原创 2021-01-19 10:31:17 · 743 阅读 · 0 评论 -
Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记
Abstract\quad Imitation learning 允许 agent 从 demonstrations 中学习 复杂的行为。然而学习一个复杂的视觉任务需要很大的 demonstrations。Meta-imitation learning 可以通过学习类似任务的经验,使 agent 从一个或几个 demonstrations 中学习新任务。在 task ambiguitytask\ ambiguitytask ambiguity 或是 unobserved d原创 2021-01-19 10:31:33 · 411 阅读 · 0 评论