【RL_Notes】chapter01 井字棋(tic_tac_toe)

前言:此份笔记是笔者在学习 reinforcement learning: an introduction 学习过程中所制。

1.模型训练

def train(epochs, print_every_n=500)

epoches表示训练的回合数,print_every_n 默认值为500,表示每500回合打印一次。

1.1 核心思想

在这个函数中,核心思想是:将两个棋手都当成两个AI玩家(采取的策略都是最优的),然后通过多回合(回合越多,棋局状态可能性越多,玩家应对策略可得到相依的最优策略)的训练跑出各个状态的最优策略,最后保存最优策略,以便后面 人类玩家与AI玩家 下棋时 AI采取的策略均为最优。

训练过程中,在每次贪婪移动后,我们需要更新前一状态的值。准确地说是前一状态的值更接近后续状态的值。

如果我们让 St表示贪婪移动之前的状态,而 St+1表示移动之后的状态, 那么将 St的估计值的更新表示为 V(St),可以写为

​ V(St)←V(St)+α[V(St+1)−V(St)],

其中 α是小正分数,称为 步长,它影响学习速度。 此更新规则是 时序差分 学习方法的一个例子,之所以称为时序差分, 是因为其变化基于两个连续时间的估计之间的差,即 V(St+1)−V(St)。

上述方法在此任务上表现良好。例如,如果步长参数随着时间的推移而适当减小,那么对于任何固定的对手, 该方法会收敛于在给定玩家最佳游戏的情况下从每个状态获胜的真实概率。 此外,采取的动作(探索性动作除外)实际上是针对这个(不完美的)对手的最佳动作。 换句话说,该方法收敛于针对该对手玩游戏的最佳策略。 如果步长参数没有随着时间的推移一直减小到零,那么这个玩家也可以很好地对抗那些慢慢改变他们比赛方式的对手。

1.2 核心代码

这里对应代码部分:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f7k8gJOE-1578819145525)(C:\Users\fzhiy\AppData\Roaming\Typora\typora-user-images\1578815585054.png)]
AI玩家基于现有状态的动作代码部分:
在这里插入图片描述

大致意思是根据棋盘上的最新状态以小于 epsilon的概率进行探索, 否则按照已知最优策略来选择下一步动作。

这里有一点没明白:

# 将values随机排列, 这里是否可省??
np.random.shuffle(values)
# 按values第一个关键字 即hash_val 降序排列
values.sort(key=lambda x: x[0], reverse=True)
action = values[0][1]

这里既然按照hash_val 降序排列选择values[0]【1】, 那么上一步的随机排列是不是可以省掉的呢? 好像对后面没影响吧…

1.3 最佳策略的保存与加载

根据symbol 表示是先手(first)还是后手(second)来保存和加载最佳策略
在这里插入图片描述

2.模型测试

根据第一步训练(100000回合)出来的模型进行测试。在测试部分,两个玩家均采取最佳策略,通过多回合(1000回合)的测试,结果显示最终是平局。
在这里插入图片描述
代码见文末的GitHub地址。

3.人机对战

最后一部分是人类玩家与AI玩家下棋。

代码中假定人类玩家先手,AI玩家后手,所以此部分与模型测试部分只是先手玩家没有加载通过模型训练得到的最佳策略,而是通过终端 人类玩家与AI玩家的交互 来完成游戏的。

4.源码及注释部分

可在github中查看。
在这里插入图片描述
AI.py — AI玩家及最佳策略保存

common.py —— 棋盘大小

get_all_states.py —— 获取棋盘所有可能状态

human_player.py —— 人类玩家

judger.py —— 裁决器

state.py —— 棋盘的状态类

tic_tac_toe.py —— 井字棋游戏主函数

参考文献:

[1] Richard S. Sutton and Andrew G. Barto

c 2014, 2015, 2016, 2017 Reinforcement Learning: An Introduction

[2] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

[3] https://rl.qiwihui.com/zh_CN/latest/chapter1/introduction.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是一个简单的井字棋 Java 代码示例: ```java import java.util.Scanner; public class TicTacToe { private char[][] board; // 棋盘 private char currentPlayer; // 当前玩家 public TicTacToe() { board = new char[3][3]; currentPlayer = 'X'; initializeBoard(); } // 初始化棋盘 public void initializeBoard() { for (int i = 0; i < 3; i++) { for (int j = 0; j < 3; j++) { board[i][j] = '-'; } } } // 打印棋盘 public void printBoard() { System.out.println("-------------"); for (int i = 0; i < 3; i++) { System.out.print("| "); for (int j = 0; j < 3; j++) { System.out.print(board[i][j] + " | "); } System.out.println(); System.out.println("-------------"); } } // 切换玩家 public void changePlayer() { currentPlayer = (currentPlayer == 'X') ? 'O' : 'X'; } // 检查是否已经有人胜利 public boolean checkForWin() { return (checkRowsForWin() || checkColumnsForWin() || checkDiagonalsForWin()); } // 检查行是否有胜利者 public boolean checkRowsForWin() { for (int i = 0; i < 3; i++) { if (checkRowCol(board[i][0], board[i][1], board[i][2])) { return true; } } return false; } // 检查列是否有胜利者 public boolean checkColumnsForWin() { for (int i = 0; i < 3; i++) { if (checkRowCol(board[0][i], board[1][i], board[2][i])) { return true; } } return false; } // 检查对角线是否有胜利者 public boolean checkDiagonalsForWin() { return (checkRowCol(board[0][0], board[1][1], board[2][2]) || checkRowCol(board[0][2], board[1][1], board[2][0])); } // 检查行或列是否有连续三个相同的字符 public boolean checkRowCol(char c1, char c2, char c3) { return ((c1 != '-') && (c1 == c2) && (c2 == c3)); } // 下棋 public void placeMark(int row, int col) { if ((row >= 0) && (row < 3) && (col >= 0) && (col < 3)) { if (board[row][col] == '-') { board[row][col] = currentPlayer; } } } // 运行游戏 public void play() { Scanner scanner = new Scanner(System.in); boolean gameOver = false; System.out.println("Let's play Tic Tac Toe!"); while (!gameOver) { System.out.println("Player " + currentPlayer + ", enter a row (0, 1, or 2): "); int row = scanner.nextInt(); System.out.println("Player " + currentPlayer + ", enter a column (0, 1, or 2): "); int col = scanner.nextInt(); placeMark(row, col); printBoard(); if (checkForWin()) { System.out.println("Congratulations! Player " + currentPlayer + " wins!"); gameOver = true; } else if (boardFull()) { System.out.println("Game over! It's a tie!"); gameOver = true; } else { changePlayer(); } } } // 检查棋盘是否已满 public boolean boardFull() { boolean full = true; for (int i = 0; i < 3; i++) { for (int j = 0; j < 3; j++) { if (board[i][j] == '-') { full = false; } } } return full; } public static void main(String[] args) { TicTacToe game = new TicTacToe(); game.play(); } } ``` 这个示例中,我们创建了一个 `TicTacToe` 类,表示一个井字棋游戏。在 `TicTacToe` 类中,我们定义了一些方法,如 `initializeBoard` 方法用于初始化棋盘,`printBoard` 方法用于打印棋盘,`changePlayer` 方法用于切换玩家,`checkForWin` 方法用于检查是否已经有人胜利等等。我们还在 `main` 方法中创建了一个 `TicTacToe` 对象并调用了 `play` 方法来运行游戏。 在游戏运行过程中,我们使用 `Scanner` 类来读取玩家的输入。玩家在每轮中输入一个行号和列号,程序会根据这个输入来下棋。程序会在每轮结束时检查是否有人胜利或棋盘已满,如果有人胜利或棋盘已满,游戏结束。如果没有人胜利或棋盘未满,程序会切换到下一个玩家并进行下一轮游戏。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值