蒙特卡洛树搜索(MCTS)的原理和实现

星河AI

已于 2024-12-03 17:41:39 修改

阅读量554

点赞数 5

文章标签： python ai gpt llama nlp deep learning

于 2024-12-03 01:28:55 首次发布

本文链接：https://blog.csdn.net/weixin_42072959/article/details/144202081

版权

蒙特卡洛树搜索（MCTS）在井字游戏中的应用

引言

蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）是一种强大的算法，广泛应用于解决具有庞大状态空间的决策问题，尤其在棋类游戏和人工智能领域表现突出。MCTS通过随机模拟评估行动的价值，并逐步构建搜索树，以发现最优策略。本文将详细介绍MCTS的核心步骤，并通过Python实现展示其在经典井字游戏（Tic-Tac-Toe）中的应用。

（后面代码若不理解可以点击：AI答疑）

井字游戏简介

井字游戏是一个简单的两人对弈游戏，玩家在一个3x3的网格上轮流放置自己的标记（通常为X或O）。目标是在水平、垂直或对角线上先排列出三个自己的标记。如果所有格子被填满且无人获胜，游戏则以平局结束。

MCTS核心步骤

MCTS主要由四个阶段组成：选择、扩展、模拟和反向传播。这四个阶段协同工作，帮助算法逐步探索和优化决策过程。

选择（Selection）：
从根节点开始，依据一定策略（如UCT公式）选择最有潜力的子节点，直到达到一个尚未完全展开的节点。
扩展（Expansion）：
在未完全展开的节点处添加一个新的子节点，代表一个可能的动作。
模拟（Simulation）：
从新扩展的节点开始，进行一次随机的游戏模拟，直到游戏结束，以此估计该路径的结果。
反向传播（Backpropagation）：
根据模拟结果更新沿途所有节点的信息，包括访问次数和胜率等统计数据。

Python实现 - 井字游戏的MCTS

以下代码示例展示了如何使用MCTS为井字游戏生成智能玩家。代码包括GameState类表示游戏状态，以及Node类表示搜索树中的节点。

import math
import random
from copy import deepcopy

class GameState:
    def __init__(self, board=None, player=1):
        self.board = board or [0] * 9  # 空格:0, X:1, O:-1
        self.player = player  # 当前玩家 (1 表示 X, -1 表示 O)

    def get_possible_moves(self):
        return [i for i, v in enumerate(self.board) if v == 0]

    def make_move(self, move):
        new_board = self.board.copy()
        new_board[move] = self.player
        return GameState(new_board, -self.player)

    def is_terminal(self):
        return self.get_winner() is not None or not self.get_possible_moves()

    def get_winner(self):
        winning_combinations = [
            (0,1,2), (3,4,5), (6,7,8),  # 横向
            (0,3,6), (1,4,7), (2,5,8),  # 纵向
            (0,4,8), (2,4,6)             # 对角线
        ]
        for combo in winning_combinations:
            total = sum(self.board[i] for i in combo)
            if total == 3:
                return 1  # X 赢
            if total == -3:
                return -1  # O 赢
        return None  # 无胜者

class Node:
    def __init__(self, state, parent=None, move=None):
        self.state = state
        self.parent = parent
        self.children = {}  # key: move, value: Node
        self.visits = 0
        self.wins = 0
        self.move = move  # 导致该节点的动作

    def is_fully_expanded(self):
        return len(self.children) == len(self.state.get_possible_moves())

    def best_child(self, c_param=1.4):
        choices_weights = [
            (child.wins / child.visits + c_param * math.sqrt(math.log(self.visits) / child.visits), child)
            for child in self.children.values() if child.visits > 0
        ]
        return max(choices_weights, key=lambda x: x[0])[1]

    def expand(self):
        tried_moves = set(self.children.keys())
        possible_moves = set(self.state.get_possible_moves()) - tried_moves
        move = random.choice(list(possible_moves))
        new_state = self.state.make_move(move)
        child_node = Node(new_state, self, move)
        self.children[move] = child_node
        return child_node

def tree_policy(node):
    while not node.state.is_terminal():
        if not node.is_fully_expanded():
            return node.expand()
        else:
            node = node.best_child()
    return node

def default_policy(state):
    current_state = deepcopy(state)
    while not current_state.is_terminal():
        possible_moves = current_state.get_possible_moves()
        move = random.choice(possible_moves)
        current_state = current_state.make_move(move)
    return current_state.get_winner()

def backup(node, result):
    while node is not None:
        node.visits += 1
        node.wins += result
        result = -result  # 切换玩家视角
        node = node.parent

def mcts(root_state, iterations=1000):
    root_node = Node(root_state)
    for _ in range(iterations):
        leaf = tree_policy(root_node)
        simulation_result = default_policy(leaf.state)
        backup(leaf, simulation_result)
    return root_node.best_child(c_param=0).move  # 最佳移动

# 示例：使用MCTS进行一次井字游戏决策
if __name__ == "__main__":
    initial_state = GameState()
    best_move = mcts(initial_state, iterations=1000)
    print(f"推荐的最佳移动位置: {best_move}")

应用与讨论

上述代码构建了一个基本的MCTS框架，为井字游戏提供了有效的AI对手。通过调整迭代次数（iterations）和探索参数（c_param），可以进一步优化AI的表现。尽管MCTS在像井字游戏这样的简单游戏中表现优异，但在更复杂的游戏中，可能需要结合更复杂的启发式方法或改进版本的MCTS以提升性能。

优化建议：