前言:此份笔记是笔者在学习 reinforcement learning: an introduction 学习过程中所制。
1.模型训练
def train(epochs, print_every_n=500)
epoches表示训练的回合数,print_every_n 默认值为500,表示每500回合打印一次。
1.1 核心思想
在这个函数中,核心思想是:将两个棋手都当成两个AI玩家(采取的策略都是最优的),然后通过多回合(回合越多,棋局状态可能性越多,玩家应对策略可得到相依的最优策略)的训练跑出各个状态的最优策略,最后保存最优策略,以便后面 人类玩家与AI玩家 下棋时 AI采取的策略均为最优。
训练过程中,在每次贪婪移动后,我们需要更新前一状态的值。准确地说是前一状态的值更接近后续状态的值。
如果我们让 St表示贪婪移动之前的状态,而 St+1表示移动之后的状态, 那么将 St的估计值的更新表示为 V(St),可以写为
V(St)←V(St)+α[V(St+1)−V(St)],
其中 α是小正分数,称为 步长,它影响学习速度。 此更新规则是 时序差分 学习方法的一个例子,之所以称为时序差分, 是因为其变化基于两个连续时间的估计之间的差,即 V(St+1)−V(St)。
上述方法在此任务上表现良好。例如,如果步长参数随着时间的推移而适当减小,那么对于任何固定的对手, 该方法会收敛于在给定玩家最佳游戏的情况下从每个状态获胜的真实概率。 此外,采取的动作(探索性动作除外)实际上是针对这个(不完美的)对手的最佳动作。 换句话说,该方法收敛于针对该对手玩游戏的最佳策略。 如果步长参数没有随着时间的推移一直减小到零,那么这个玩家也可以很好地对抗那些慢慢改变他们比赛方式的对手。
1.2 核心代码
这里对应代码部分:
AI玩家基于现有状态的动作代码部分:
大致意思是根据棋盘上的最新状态以小于 epsilon的概率进行探索, 否则按照已知最优策略来选择下一步动作。
这里有一点没明白:
# 将values随机排列, 这里是否可省??
np.random.shuffle(values)
# 按values第一个关键字 即hash_val 降序排列
values.sort(key=lambda x: x[0], reverse=True)
action = values[0][1]
这里既然按照hash_val 降序排列选择values[0]【1】, 那么上一步的随机排列是不是可以省掉的呢? 好像对后面没影响吧…
1.3 最佳策略的保存与加载
根据symbol 表示是先手(first)还是后手(second)来保存和加载最佳策略
2.模型测试
根据第一步训练(100000回合)出来的模型进行测试。在测试部分,两个玩家均采取最佳策略,通过多回合(1000回合)的测试,结果显示最终是平局。
代码见文末的GitHub地址。
3.人机对战
最后一部分是人类玩家与AI玩家下棋。
代码中假定人类玩家先手,AI玩家后手,所以此部分与模型测试部分只是先手玩家没有加载通过模型训练得到的最佳策略,而是通过终端 人类玩家与AI玩家的交互 来完成游戏的。
4.源码及注释部分
可在github中查看。
AI.py — AI玩家及最佳策略保存
common.py —— 棋盘大小
get_all_states.py —— 获取棋盘所有可能状态
human_player.py —— 人类玩家
judger.py —— 裁决器
state.py —— 棋盘的状态类
tic_tac_toe.py —— 井字棋游戏主函数
参考文献:
[1] Richard S. Sutton and Andrew G. Barto
c 2014, 2015, 2016, 2017 Reinforcement Learning: An Introduction
[2] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
[3] https://rl.qiwihui.com/zh_CN/latest/chapter1/introduction.html