算法学习（一）——Minimax算法

最新推荐文章于 2024-06-18 17:27:48 发布

星之所望

最新推荐文章于 2024-06-18 17:27:48 发布

阅读量6.1k

点赞数 16

分类专栏：强化学习文章标签：算法剪枝 python

原文链接：https://www.zhihu.com/question/27221568

版权

强化学习专栏收录该内容

42 篇文章 20 订阅

订阅专栏

作者：还想养只小短腿
链接：https://www.zhihu.com/question/27221568/answer/140874499
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

先来说极小极大算法主要应用于什么样的游戏：
1. 零和游戏（Zero-sum Game）：意思就是你死我活，一方的胜利代表另一方的失败，比如，象棋，五子棋等。
2. 完全信息（Perfect Information）：玩家知道之前所有的步骤。象棋就是完全信息，因为玩家是交替着落子，且之前的步骤都能在棋盘上体现，但是石头剪子布就不是。
这样的游戏通常可以把他们看作一个树状图，把每一种可能性列出来。比如下面这个井字棋游戏，Max代表你自己，Min代表你的对手。

这个时候我们需要给每一种结果一个分数，就是这里的Utility。这个分数是站在我自己（也就是Max）的角度评估的，比如上图中我赢了就是＋1，输了是－1，平局时0。所以，我希望最大化这个分数，而我的对手希望最小化这个分数。（在游戏中，这个分数被称为static value。）这里要说一下，井字棋是个比较简单的游戏，所以可以列出所有可能的结果。但是，大部分游戏是不太可能把所有结果都列出来的。根据计算机运算量，我们可能只能往前推7，8步，所以这个时候分数就不只－1，1，0这么简单了，会有专门的算法来根据当前结果给不同的分数。
假设我们有如下图的游戏，我是先手，我应该如何利用Minmax算法来选出第一步怎么走呢？

这个时候我们就要从结果看起，也就是第4步。图中标注第四步是我的对手下的，所以他要做的是最小化这个分数，于是对手根据结果可以反推出如下选择

继续从后往前看到第3步，当我们知道了对手的选择以后，我们可以根据对手的结果反推出自己的选择，我们要做的是最大化这个分数，如图

重复这个步骤，我们最终可以发现第一步的最优选择，如图

以上就是极小极大算法（Minimax）。

当然对于一个复杂的游戏来说，比如象棋，肯定是需要非常多步才能完成的。这就导致结果的数量是成几何增长的，也就是说，如果这个游戏每一步都有n个选择，那么在x步以后，将会有n^x个选择。这个时候，我们就需要采取剪枝算法（Alpha-Beta）来减少运算量。从剪枝算法这个名字我们就能看出，这个算法能让我们剪掉树状图中的一些分支，从而减少运算量。在这里也说一下剪枝算法，因为这并不是个不同于极小极大的算法，而是极小极大算法的升级版。
我们将游戏简化成如下图，使用Minimax算法，我们可以得出这样的结果

但是，最后一步的分数其实也需要计算机来算（static evaluation），所以我们并不会一开始就有所有的数据，其实我们一开始是这样的

然后，计算机给出了第一个分数

当给出了这个分数的时候，我们站在步骤1看，无论另一分支的数字是多少，步骤1左边方框的数字不会超过2。因为第2步是我的对手下的，他希望分数尽可能的小，也就是这样的

这个时候，电脑再计算另一分支的分数，也就是7。知道另一分数是7以后，也就知道步骤1的左边方框分数为2。这时，我们往前看一步（步骤0）。步骤0的分数是大于等于2，因为我要最大化分数。如图

现在，再来计算右边分支的分数，得到了1。同理，我们站在步骤1来看，右边方框中的数不会超过1，如图

在这个情况下，即使我不算最后一个数字，我也能知道在步骤0的结果为2，因为已知步骤1中的右边方框，数值不会超过1。所以我们就能直接知道结果，也就是

我们可以看到，加上剪枝算法，我们不仅得到了相同的结果，而且减少了计算量。在实际应用中，加上剪枝算法，计算机大约需要算2*n^(x/2)个结果，如果n为分支数，x为步数。相比于之前仅用极小极大算法的n^x，效率提高了很多。这也就意味着，如果在象棋比赛中，假设使用极小极大的算法，计算机能往前评估7步，加上剪枝算法，计算机能往前评估14步。极小极大和剪枝算法曾在IBM开发的国际象棋超级电脑，深蓝（Deep Blue）中被应用，并且两次打败当时的世界国际象棋冠军。

python代码实现：

def minimax(state, depth, player):
    """
    AI function that choice the best move
    :param state: current state of the board
    :param depth: node index in the tree (0 <= depth <= 9),
    but never nine in this case (see iaturn() function)
    :param player: an human or a computer
    :return: a list with [the best row, best col, best score]
    """
    if player == COMP:
        best = [-1, -1, -infinity]
    else:
        best = [-1, -1, +infinity]

    if depth == 0 or game_over(state):
        score = evaluate(state)
        return [-1, -1, score]

    for cell in empty_cells(state):
        x, y = cell[0], cell[1]
        state[x][y] = player
        score = minimax(state, depth - 1, -player)
        state[x][y] = 0
        score[0], score[1] = x, y

        if player == COMP:
            if score[2] > best[2]:
                best = score  # max value
        else:
            if score[2] < best[2]:
                best = score  # min value

    return best

星之所望

关注

16
点赞
踩
52

收藏

觉得还不错? 一键收藏
5
评论
算法学习（一）——Minimax算法

作者：还想养只小短腿链接：https://www.zhihu.com/question/27221568/answer/140874499来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。先来说极小极大算法主要应用于什么样的游戏：1. 零和游戏（Zero-sum Game）：意思就是你死我活，一方的胜利代表另一方的失败，比如，象棋，五子棋等。2. 完全信息（Perfect Information）：玩家知道之前所有的步骤。象棋就是完全信息，因为玩家是交替着落子，.
复制链接

扫一扫

专栏目录