强化学习极简例子--井字棋

最新推荐文章于 2024-09-04 14:24:09 发布

闵帆

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量2.1k

点赞数 12

分类专栏：强化学习文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/minfanphd/article/details/108267372

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

井字棋

3*3的棋盘上，白、黑子轮流下。如果某方棋子占满同一行、同一列、同一条斜线，则算赢。当棋盘占满还未分出胜负，则为和棋。

棋局状态编码

由于每个位置有三种可能状态：空（0）、白（1）、黑（2），可用3进制来表示棋局当前状态，其中0行0列表示最低位，0行1列表示次低位。
在这里插入图片描述

图1. 棋局例, 其状态为1236
图1所示棋局，其状态用3进制表示为

001200210)_3

, 转化为十进制即

\times 3^8 + 0 \times 3^7 + 1 \times 3^6 + 2 \times 3^5 + 0 \times 3^4 + 0 \times 3^3 + 2 \times 3^2 + 1 \times 3^1 + 0 \times 3^0 = 1236

.
易知所有棋局（状态）数为

3^9 = 19683

，但根据井字棋规则, 并非所有状态（如全1）为可达的。没有关系，这个值不大，我们可以使用暴力。

建模

本问题涉及三类实体: 棋盘、双方队员、裁判。

棋盘负责记录棋局，并判断当前状态（这不是裁判干的事情吗？我不管，这是智能棋盘。）
双方队员负责落子。
裁判负责组织训练和比赛。

学习过程

队员学习的成果，就是获得一个长度为19683的价值(Value)向量。其中各分量记录了相应状态的价值，价值越高，对该队员越有利。例如， $v [1236]$ 就是图1所示棋局状态的价值。
每个队员有自己的v向量。
v向量的初始化如下:

如果棋局状态为自己赢，则值为1.0;
如果棋局状态为对方赢, 则值为0.0;
如果棋局状态为平局, 则值为0.5;
如果棋局尚未结束, 则值为0.5.

训练阶段有很多（如10000轮）。
每一轮开始，双方队员从空棋盘状态瞎走…直到棋盘发现已经到达“白胜、黑胜、平局”三种终局状态之一，并及时让他们stop。

图2从下到上描述了第0轮棋局的进展过程. 如左下方所示，棋局初始没有子，所有位置均为0. 这时的状态为 $000000000)_3 = 0$ . 它的下一个状态有9个选项, 依次是 $000000001)_3 = 1$ , $000000010)_3 = 3$ , …, $100000000)_3 = 6561$ .
由于 $\dots = v[6561] = 0.5$ , 下在任何地方的奖励都相同，所以随机选一个.
图2所示, 白棋选择了位置6, 这时状态变为 $001000000)_3 = 729$ .
接下来该黑棋. 它剩下8个选项, 对应的状态依次是 $001000002)_3 = 731$ 到 $201000000)_3$ , 这些状态对应的奖励值也全是0.5, 所以它随机选择了位置2, 新的状态为 $001000200)_3 = 747$ .
这样一路到了状态 $011200210)_3 = 3423$ , 黑棋发现自己的下一个可选状态包括了 $211200210)_3 = 16545$ 而且它的 $v [16545] = 1.0$ . 这真是个好消息！所以它果断地选择了位置8并把白棋打败.
需要注意:

某状态的下一个状态，通常不与它的编号相连. 如状态0的下一个状态可以是6561.
选手在选择下一个状态时，既可以选择奖励值最大的（如黑棋的最后一步选择）, 也可以按照一定概率随机选择. 前面对应于开发exploit，后者对应于探索explore. 可以有一个系数 $\epsilon$ 控制它.

这时, 两位队员各自总结经验. 方法是从棋局结束状态往开始状态逆向分析, 并更新自己的v矩阵.
在这里插入图片描述

图2 第0轮经验总结
图2从上到下则描述了第0轮的经验总结过程。由于最终状态是Player 2获胜，他将自已一路经过的状态奖励值增加，当然，有个衰减，由系数

\alpha

控制。
Player 1输了，痛定思痛，将一路经过的状态奖励值减少，也用衰减系数

\alpha

控制。
更新式子可以写成：

\alpha(v[nextState] - v[state])

这里

s t a t e = 0

时，

n e x t S t a t e = 729

, 以此类推。
对于Player 1而言

\alpha \times (v[16545] - v[3423]) = 0.5 + 0.1 \times (0 - 0.5) = 0.45

在这里插入图片描述

图3. 第k轮经验总结
如图3所示, 经过很多轮训练后, v向量的值变得多种多样, 但根据前面的式子, 这些值均处于

[0, 1]

区间.

比赛过程

Player 1从状态0出发，有9种选择, 根据自己的v向量，找到价值最大的那个选择（一般是4号位置，也就是最中间那个）。
Player 2从该状态出发，剩下8种选择，同理找到最佳选择。

比赛时就不去探索(胡下)了. 机器之间比赛的话, 由于每次都用它自己认为的最佳下一步，所以棋局一般是重复的.
机器之间的对抗，只有平局才是合理的。否则是训练过程出了问题，或者训练轮数还不够。
可以进行人机对抗，如果训练轮次足够，机器是不会输的。

代码

https://github.com/FanSmale/MFReinforcement
入口是 gui/ReinforcementGUI.java。运行效果如图4所示。需要先点击 “Train” 按钮进行训练，然后点击问号对应的位置。由于我是胡下的，所以输给了机器。读者要想赢下机器，不妨将Training rounds设置成50。
图里插入图片描述
图4. 运行界面

结尾彩蛋

训练的开始阶段，经常有价值相同的下一个状态，这时就随机选一个最佳的咯。
棋谱不需要保存，只需要黑白双方各自保存的价值向量即可。

闵帆

关注

12
点赞
踩
21

收藏

觉得还不错? 一键收藏
6
评论
强化学习极简例子--井字棋

井字棋3*3的棋盘上，白、黑子轮流下。如果某方棋子占满同一行、同一列、同一条斜线，则算赢。当棋盘占满还未分出胜负，则为和棋。棋局状态编码由于每个位置有三种可能状态：空（0）、白（1）、黑（2），可用3进制来表示棋局当前状态，其中0行0列表示最低位，0行1列表示次低位。图1. 棋局例图1所示棋局，用3进制表示为001200210，转化为十进制即0×38+0×37+1×36+2×35+0×34+0×33+2×32+1×31+0×30=12360 \times 3^8 + 0 \times 3^7 +
复制链接

扫一扫

专栏目录