Reinforecement Learning 论文及github仓库汇总

环境:

参考github:https://github.com/openai/gym

v0和v4的env差别在于有无0.25的repeat_action_probability,前者有,后者没有。

有无ram的差别在于input,是2d image(pixel) 还是1d array。更详细的解释可参考:https://stackoverflow.com/questions/45207569/how-to-interpret-the-observations-of-ram-environments-in-openai-gym

 

算法:

ppo

论文:Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.(https://arxiv.org/pdf/1707.06347.pdf

参考github:https://github.com/hill-a/stable-baselines

已尝试ppo2

 

muzero

论文:Schrittwieser J, Antonoglou I, Hubert T, et al. Mastering atari, go, chess and shogi by planning with a learned model[J]. arXiv preprint arXiv:1911.08265, 2019.(https://arxiv.org/pdf/1911.08265.pdf

参考github:https://github.com/werner-duvaud/muzero-general

该开源项目使用了Ray,可方便的实现多机集群实验。👍

 

go-explore

原论文:Ecoffet A, Huizinga J, Lehman J, et al. Go-explore: a new approach for hard-exploration problems[J]. arXiv preprint arXiv:1901.10995, 2019.(https://arxiv.org/pdf/1901.10995.pdf

最新论文:Ecoffet A, Huizinga J, Lehman J, et al. First return then explore[J]. arXiv preprint arXiv:2004.12919, 2020.

https://arxiv.org/abs/2004.12919

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值