Alpha Zero 趣味学习：训练网络

最新推荐文章于 2023-06-03 21:00:30 发布

lawme

最新推荐文章于 2023-06-03 21:00:30 发布

阅读量774

点赞数 2

分类专栏： Alpha Zero

本文链接：https://blog.csdn.net/lawme/article/details/82466524

版权

本文介绍了如何使用 Alpha Zero 算法进行 TicTacToe 游戏的网络训练。在训练开始前，需要在 main.py 中初始化游戏和网络，并启动 Train 类进行训练。训练过程中涉及的关键组件包括 Train 类负责网络训练管理，TicTacToeGame 类实现游戏逻辑，NeuralNetworkWrapper 管理神经网络，MonteCarloTreeSearch 负责蒙特卡罗搜索树，以及 Evaluate 类作为估值器。通过 Train.start() 方法，整个训练流程得以运行。

摘要由CSDN通过智能技术生成

启动 TicTacToe ，会进入网络训练或人机对弈。如果不设置启动参数 –human_play=1，便自动进入网络训练。即：

python main.py

开始训练前，要在 main.py 中做两件事情。第一，初始化游戏和网络：

if CFG.game == 0:
    game = TicTacToeGame()
net = NeuralNetworkWrapper(game)

第二，初始化训练类，开始训练：

train = Train(game, net)
train.start()

类 Train 的初始化：

def __init__(self, game, net):
    """Initializes Train with the board state and neural network."""
    self.game = game
    self.net = net
    self.eval_net = NeuralNetworkWrapper(game)

在 Train.start() 中，初始化了神经网络、估值网络和估值器：

current_mcts = MonteCarloTreeSearch(self.net)
eval_mcts = MonteCarloTreeSearch(self.eval_net)
evaluator = Evaluate(current_mcts=current_mcts, eval_mcts=eval_mcts, game=self.game)

综上所见，网络训练主要由以下模块和类协作实现：

train.py 类 Train 负责网络训练的管理
目录 tic_tac_toe 中 tic_tac_toe_game.py 的类 TicTacToeGame ，实现游戏逻辑，管理棋局
neural_net.py 类 NeuralNetworkWrapper 是类 NeuralNetwork 的包装或接口，负责神经网络的管理
tic_tac_toe.py 类 TicTacToeGame，是综合了棋盘表示、游戏规则、游戏逻辑等的物件
mcts.py 类 MonteCarloTreeSearch 负责蒙特卡罗搜索树管理
evaluate.py 类 Evaluate 是下棋策略和价值判断的估值器&#

最低0.47元/天解锁文章

lawme

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Alpha Zero 趣味学习：训练网络

启动 TicTacToe ，会进入网络训练或人机对弈。如果不设置启动参数 –human_play=1，便自动进入网络训练。即：python main.py开始训练前，要在 main.py 中做两件事情。第一，初始化游戏和网络：if CFG.game == 0: game = TicTacToeGame()net = NeuralNetworkWrapper(game)...
复制链接

扫一扫

专栏目录