强化学习
前沿rl跟进与想法
狡童
这个作者很懒,什么都没留下…
展开
-
《RANK THE EPISODES: A SIMPLE APPROACH FOR EXPLORATION IN PROCEDURALLY-GENERATED ENVIRONMENTS》
背景:这篇文章用于解决在procedurally-generated环境中(a different environment is generated in each episode),当奖励稀疏时,如何鼓励agent进行探索的问题。 方法: 对每个episode打分,打分方式以local,global,extrinsic三方面的加权获得。并按score rank 截断存储在一个buffer中,接下来的episode中对buffer中的个体进行imitation learning。 问题:当ep..翻译 2021-03-02 16:15:32 · 206 阅读 · 1 评论 -
区分on-policy 和 off-policy
————"Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications" [114] Tsitsiklis, J. N., and Van Roy, B. (1997). Analysis of temporal-diffference learning with functionapproximation. InAdvances in Neural I...原创 2021-02-25 15:34:37 · 165 阅读 · 0 评论