当前强化学习已在许多应用中取得了巨大成功。但样本效率仍是强化学习中一个重大挑战,重要的方法需要数百万(甚至数十亿)的环境步骤来训练。虽然,当前在基于图像的样本高效RL算法方面取得了重大进展;但是,在Atari游戏基准上,要达到与人类水平相一致,仍然是一个难以实现的目标。
智源社区特邀请了清华大学交叉信息研究院助理教授高阳博士分享其团队的新研究《使用有限数据掌控Atari游戏》( Mastering Atari Games with Limited Data)。
论文链接:https://arxiv.org/abs/2111.00210#