Adversarial Search

Adversarial Search(对抗性搜索)是一种用于解决双人零和博弈(如棋类游戏、井字棋、围棋等)的问题的搜索技术。在这些游戏中,玩家的目标是最大化自己的收益,而同时最小化对手的收益,因此称为对抗性。这类搜索方法的目的是在考虑到对手最佳策略的情况下,为自己找到最优解。

核心概念

  1. 零和博弈

    • 对抗性搜索通常应用于零和博弈,即一方的得分增加会直接导致另一方的得分减少,总和为零。例如象棋和井字棋,只有一个赢家,另一个则是输家或平局。
  2. 博弈树(Game Tree):

    • 对抗性搜索问题可以表示为博弈树,其中每个节点表示当前游戏的状态,分支则表示所有可能的动作。树的根节点代表游戏的起始状态,子节点表示每一步可能的结果。
  3. 最大化和最小化(Maximizing and Minimizing):

    • 在对抗性搜索中,玩家分为两个角色:
      • Max(最大化玩家):通常表示当前正在做出决策的玩家,他们的目标是最大化其得分。
      • Min(最小化玩家):对手的角色,目标是通过做出最佳决策来最小化 Max 的得分。
    • Max 和 Min 交替进行决策,分别在树的不同层次中做出最佳选择。

Minimax 算法

Minimax 算法 是最经典的对抗性搜索算法。它通过递归评估博弈树中的所有可能分支,找到一个确保即便对手采取最优策略时也能为自己选择最佳动作的策略。

  • Minimax 算法的基本思想
    • Max 尽量选择对自己最有利的行动。
    • Min 则尽量让 Max 的得分最小。
具体步骤:
  1. 构建博弈树:根据当前游戏状态,生成所有可能的行动以及对应的后续状态,直到到达终局(游戏结束状态)。
  2. 评估叶子节点:为每一个终局状态分配一个评分(通常是一个胜负或平局的分数),这一步由游戏的规则决定。
  3. 递归回溯计算
    • 从博弈树的叶子节点开始回溯计算。
    • Max 层:玩家选择能带来最高分数的行动。
    • Min 层:对手选择能带来最低分数的行动。
  4. 选择最佳行动:通过递归,根节点返回的值就是双方采取最佳策略下,当前玩家能获得的最优结果。
Minimax 示例:

假设游戏有一个小型博弈树如下:

        Max
         |
     ------------
    |      |     |
   Min    Min    Min
   1      4      3
  • 在这个例子中,Max 需要从3个可能的选择中做决策。它会选择 4,因为这是在 Min 做出最优反应后,能获得的最大值。
Minimax 伪代码:
def minimax(state, depth, maximizing_player):
    if depth == 0 or is_terminal(state):
        return evaluate(state)
    
    if maximizing_player:
        max_eval = float('-inf')
        for child in get_children(state):
            eval = minimax(child, depth - 1, False)
            max_eval = max(max_eval, eval)
        return max_eval
    else:
        min_eval = float('inf')
        for child in get_children(state):
            eval = minimax(child, depth - 1, True)
            min_eval = min(min_eval, eval)
        return min_eval

Alpha-Beta 剪枝

Alpha-Beta 剪枝 是 Minimax 算法的优化版。它通过跳过不必要的分支来减少需要评估的节点数量,从而提高效率。

  • Alpha 表示当前 Max 能获得的最大值下界。
  • Beta 表示当前 Min 能接受的最小值上界。

当某个分支已经确定不会影响决策时,Alpha-Beta 剪枝会提前停止对该分支的搜索。

Alpha-Beta 剪枝的工作原理:
  • 在递归搜索过程中,如果某个分支的评分已经无法超过之前计算的最优值,则不必继续探索该分支,这称为“剪枝”。
  • 这种方法显著减少了需要评估的节点数量,从而加快了搜索过程。

对抗性搜索的应用

  1. 棋类游戏:对抗性搜索广泛应用于棋类游戏,如国际象棋、围棋等,来找到最佳的下棋策略。
  2. AI 竞赛:在机器人竞赛、虚拟游戏对抗中,使用对抗性搜索让 AI 做出最佳决策。
  3. 策略游戏:如即时战略游戏(RTS)中的路径规划和资源管理中,对抗性搜索用于预测敌方行为。

总结:

  • 对抗性搜索 是双人博弈问题中的重要算法,它通过考虑对手的最优策略来选择自己的最佳行动。
  • Minimax 算法 是其中最基本的方法,而 Alpha-Beta 剪枝 可以优化其效率,减少不必要的计算。
浙江大学人工智能课程课件,内容有: Introduction Problem-solving by search( 4 weeks) Uninformed Search and Informed (Heuristic) Search (1 week) Adversarial Search: Minimax Search, Evaluation Functions, Alpha-Beta Search, Stochastic Search Adversarial Search: Multi-armed bandits, Upper Confidence Bound (UCB),Upper Confidence Bounds on Trees, Monte-Carlo Tree Search(MCTS) Statistical learning and modeling (5 weeks) Probability Theory, Model selection, The curse of Dimensionality, Decision Theory, Information Theory Probability distribution: The Gaussian Distribution, Conditional Gaussian distributions, Marginal Gaussian distributions, Bayes’ theorem for Gaussian variables, Maximum likelihood for the Gaussian, Mixtures of Gaussians, Nonparametric Methods Linear model for regression: Linear basis function models; The Bias-Variance Decomposition Linear model for classification : Basic Concepts; Discriminant Functions (nonprobabilistic methods); Probabilistic Generative Models; Probabilistic Discriminative Models K-means Clustering and GMM & Expectation–Maximization (EM) algorithm, BoostingThe Course Syllabus Deep Learning (4 weeks) Stochastic Gradient Descent, Backpropagation Feedforward Neural Network Convolutional Neural Networks Recurrent Neural Network (LSTM, GRU) Generative adversarial network (GAN) Deep learning in NLP (word2vec), CV (localization) and VQA(cross-media) Reinforcement learning (1 weeks) Reinforcement learning: introduction
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值