强化学习
BBlue-Sky
这个作者很懒,什么都没留下…
展开
-
深度强化学习算法 A3C (Actor-Critic Algorithm)
深度强化学习算法 A3C (Actor-Critic Algorithm) 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也给想学习的小伙伴一个参考。 想要认识清楚这个算法,需要对 DRL 的算法有比较深刻的了解,推荐大家先了解下 Deep Q-learning 和 Policy Gradient 算法。 我们知道,DRL 算法大致可以分为如下这几个类...转载 2019-12-02 16:52:58 · 1300 阅读 · 0 评论 -
DeepMind:星际争霸2:强化学习新挑战(论文翻译)
星际争霸2:强化学习新挑战原文下载链接:https://deepmind.com/documents/110/sc2le.pdf本文绿色字体是学习过程中的注释,蓝色字体为总结,可以忽略,最后附有个人翻译后记。整个论文分为:摘要(Abstract)1.介绍(Introduction)2.相关工作(Related work)3.sc2le环境(The SC2LE Environment)...翻译 2019-12-02 16:11:02 · 3170 阅读 · 0 评论 -
AlphaStar 实战技巧分析
作者:新智元链接:https://www.zhihu.com/question/310011363/answer/581431562来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 AlphaStar 实战技巧分析讲完 AlphaStar 的训练过程,再来分...转载 2019-12-02 11:12:26 · 981 阅读 · 0 评论 -
AlphaStar
AlphaStar北京时间2019年01.24凌晨2:00,DeepMind的伦敦总部,《星际争霸2》游戏人工智能AlphaStar首秀。DeepMind是全球人工智能领军,AlphaGo和AlphaZero的创造者,这里就不多介绍了。星际2作为一款当今世界最复杂的即时战略游戏,含经济运营,兵伐诡道,战争迷雾以及瞬息万变的策略,自2016年起,就被DP当做一个攻克目标。相比之下,围棋棋盘是固定的,...原创 2019-12-02 11:10:02 · 3216 阅读 · 1 评论 -
AlphaGo Zero详解
思考再三,决定研究一下 AlphaGo Zero,并把 AlphaGo Zero 的思想运用到五子棋 中,毕设就决定做这个。后文:蒙特卡洛树搜索(MCTS)代码详解【python】AlphaZero五子棋网络模型【python】AlphaGo Zero 最大的亮点是:完全没有利用人类知识,就能够获得比之前版本更强大的棋力。主要的做法是:利用蒙特卡洛树搜索建立一个模型提升器在自...原创 2019-12-02 10:13:17 · 1424 阅读 · 1 评论 -
深入浅出看懂AlphaGo Zero
深入浅出看懂AlphaGo Zero (文章最后有原AlphaGo Zero论文地址) ...翻译 2019-12-02 09:46:50 · 767 阅读 · 0 评论 -
强化学习很好的学习资料(亲学有效)
https://www.cnblogs.com/bluemapleman/category/1249218.html原创 2018-12-19 11:27:21 · 305 阅读 · 0 评论