min-max框架

 

1. 零和游戏(Zero-sum Game):意思就是你死我活,一方的胜利代表另一方的失败,比如,象棋,五子棋等。
2. 完全信息(Perfect Information):玩家知道之前所有的步骤。象棋就是完全信息,因为玩家是交替着落子,且之前的步骤都能在棋盘上体现,但是石头剪子布就不是。
这样的游戏通常可以把他们看作一个树状图,把每一种可能性列出来。比如下面这个井字棋游戏,Max代表你自己,Min代表你的对手。

这个时候我们需要给每一种结果一个分数,就是这里的Utility。这个分数是站在我自己(也就是Max)的角度评估的,比如上图中我赢了就是+1,输了是-1,平局时0。所以,我希望最大化这个分数,而我的对手希望最小化这个分数。(在游戏中,这个分数被称为static value。)这里要说一下,井字棋是个比较简单的游戏,所以可以列出所有可能的结果。但是,大部分游戏是不太可能把所有结果都列出来的。根据计算机运算量,我们可能只能往前推7,8步,所以这个时候分数就不只-1,1,0这么简单了,会有专门的算法来根据当前结果给不同的分数。
假设我们有如下图的游戏,我是先手,我应该如何利用Minmax算法来选出第一步怎么走呢?

这个时候我们就要从结果看起,也就是第4步。图中标注第四步是我的对手下的,所以他要做的是最小化这个分数,于是对手根据结果可以反推出如下选择

继续从后往前看到第3步,当我们知道了对手的选择以后,我们可以根据对手的结果反推出自己的选择,我们要做的是最大化这个分数,如图

重复这个步骤,我们最终可以发现第一步的最优选择,如图

以上就是极小极大算法(Minimax)。

 

当然对于一个复杂的游戏来说,比如象棋,肯定是需要非常多步才能完成的。这就导致结果的数量是成几何增长的,也就是说,如果这个游戏每一步都有n个选择,那么在x步以后,将会有n^x个选择。这个时候,我们就需要采取剪枝算法(Alpha-Beta)来减少运算量。从剪枝算法这个名字我们就能看出,这个算法能让我们剪掉树状图中的一些分支,从而减少运算量。在这里也说一下剪枝算法,因为这并不是个不同于极小极大的算法,而是极小极大算法的升级版。
我们将游戏简化成如下图,使用Minimax算法,我们可以得出这样的结果

但是,最后一步的分数其实也需要计算机来算(static evaluation),所以我们并不会一开始就有所有的数据,其实我们一开始是这样的

然后,计算机给出了第一个分数

当给出了这个分数的时候,我们站在步骤1看,无论另一分支的数字是多少,步骤1左边方框的数字不会超过2。因为第2步是我的对手下的,他希望分数尽可能的小,也就是这样的

这个时候,电脑再计算另一分支的分数,也就是7。知道另一分数是7以后,也就知道步骤1的左边方框分数为2。这时,我们往前看一步(步骤0)。步骤0的分数是大于等于2,因为我要最大化分数。如图

现在,再来计算右边分支的分数,得到了1。同理,我们站在步骤1来看,右边方框中的数不会超过1,如图

在这个情况下,即使我不算最后一个数字,我也能知道在步骤0的结果为2,因为已知步骤1中的右边方框,数值不会超过1。所以我们就能直接知道结果,也就是


我们可以看到,加上剪枝算法,我们不仅得到了相同的结果,而且减少了计算量。在实际应用中,加上剪枝算法,计算机大约需要算2*n^(x/2)个结果,如果n为分支数,x为步数。相比于之前仅用极小极大算法的n^x,效率提高了很多。这也就意味着,如果在象棋比赛中,假设使用极小极大的算法,计算机能往前评估7步,加上剪枝算法,计算机能往前评估14步。极小极大和剪枝算法曾在IBM开发的国际象棋超级电脑,深蓝(Deep Blue)中被应用,并且两次打败当时的世界国际象棋冠军。

 

作者:木海遥
链接:https://www.zhihu.com/question/27221568/answer/127599152
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

极小极大算法(Minimax)和α-β剪枝(Alpha-Beta Pruning)都是game playing领域的经典算法(可参考 AIAM(Artificial Intelligence - A Modern Approach)的第五章),极小极大实际上使用了DFS来遍历当前局势以后所有可能的结果,通过『最大化』自己和『最小化』对手的方法获取下一步的动作。α-β剪枝也是类似的思想,只不过效率更高,因为它删减了一些不需要遍历的结点。
下图是一个极小极大算法的例子,MAX层代表自己,总是选取下面三个结点中的最大值,MIN层代表对手,总是选取下面一层结点中的最小值。在此例子中,MAX下一步会选择a1。

Minimax的伪代码如下(递归实现):

01 function minimax(node, depth, maximizingPlayer)
02     if depth = 0 or node is a terminal node
03         return the heuristic value of node

04     if maximizingPlayer
05         bestValue := −∞
06         for each child of node
07             v := minimax(child, depth − 1, FALSE)
08             bestValue := max(bestValue, v)
09         return bestValue

10     else    (minimizing player)
11         bestValue := +∞
12         for each child of node
13             v := minimax(child, depth − 1, TRUE)
14             bestValue := min(bestValue, v)
15         return bestValue

开始时调用 :

minimax(root, depth, TRUE)

函数返回的是Max下一步的最大值,所以需要稍加修改伪代码才能返回Max下一步的移动动作。
可以使用Java里面的ArrayList<char[]>来产生并且保存child of node。
在极大极小伪代码的基础上增加两行就变成了α-β剪枝。

也可以参考Cornell University OOAD这门课的讲义(http://www.cs.cornell.edu/courses/cs2110/2014sp/L16-GameTree_and_MiniMax_and_GenericTypes/L16cs2110sp14.pdf)

 

 https://github.com/jieaozhu/Machine_Learning/blob/master/minimax_alpha_beta_pruning/basicplayer.py#L48

原文:

https://www.zhihu.com/question/27221568/answer/140874499
https://www.zhihu.com/question/27221568/answer/127599152

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值