- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 Alpha系列论文笔记(二) AlphaGo Zero
1. 背景通过系列一对Alpha的介绍,我们已经知道了AlphaGo的大致模型内容。在2017年,论文1又基于AlphaGo提出了一个新模型AlphaGo Zero。新模型和AlphaGo的主要区别就在于,完全没有应用人类对弈数据。在AlphaGo中,人类对弈数据主要在快速策略网络和监督学习策略网络。在论文中提到,应用人类专家数据的缺点主要有两部分:1. 很难获取可靠的专家数据;2. 系统的表...
2018-12-22 01:52:26 1598
原创 Alpha论文系列笔记(一)AlphaGo
1.背景本文主要为我本身对AlphaGo1论文的理解及解读。由于本身可能能力有限,解读不准确的地方欢迎大家指正。符号简要说明s : State(状态) 指代当前棋局状态,可以表示为一个19×1919 \times 1919×19 的特征平面a : Action(动作) 指代在某一状态s下,可能采取某一动作(即将棋子下在某一个地方)A(s)A(s)A(s) :...
2018-12-20 08:15:51 4503
自己瞎编的迷之元胞自动机代码
2017-01-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人