博弈树与α-β剪枝

最新推荐文章于 2025-03-25 19:18:56 发布

JE-lph

最新推荐文章于 2025-03-25 19:18:56 发布

阅读量7.3k

点赞数 34

文章标签：大数据

本文链接：https://blog.csdn.net/m0_51897707/article/details/125461537

版权

博弈树 α-β剪枝评价函数搜索策略游戏决策

关键词由CSDN通过智能技术生成

一、评价函数（Evaluation function）

绝大部分的游戏，决策空间都相当庞大。

即使是最简单的三子棋（又叫做“井”字棋，一字棋）。它的第一步有9种决策，然后对面有9*8=72种决策，....，最后一层的决策个数达到了 9! = 362880 种。如此简单的游戏，在不做特殊处理的时候，都有几十万种决策（当然这个量级计算机还是能够hold住的）。它的棋盘大小仅仅是3 X 3，五子棋是15 X 15，围棋是19 X 19，想要穷举出所有决策，几乎是不可能的。

因此，我们不能够像上一章那样，每次都穷举出所有的结果，再去慢慢找最优决策。随着树的深度的增加，我们的节点个数是指数级上升的。

我们不得不搜索到一定程度，就停止继续往下搜索。

当我们停下来以后，这个时候，由于我们游戏还没有结束，我们如何判断当前的结果的好坏？

我们需要设计一个评价函数（Evaluation function）对于当前局面进行评分。这个评价函数如何设计？主要是根据不同的游戏，还有人类的日常经验来判断。

我当时设计五子棋AI的时候，就人为的设计了一个评价当前局面的分数的函数。比如已经有5个子连成一线了，它就是最高分；如果有4个子连成一线，它就是次高分；还有双3，...。这样我们就能根据局面，获得一个得分。当然，当对面调用这个评价函数的时候，获得的分数前面要取一个负号。因为对手的最高分，就是我们的最低分。

二、博弈树与 α-β剪枝

有了评价函数，我们就可以随时终止我们的搜索了。因为对于任何局面，我们都能够给出一个收益得分。我们可以限定我们的搜索的深度，随时结束搜索。

但是我们的搜索空间仍然非常庞大。因为最开始的几层，可做的决策是相当多的。

比如五子棋，第一步就有225种下法。而对手对应就有225*224=50,400种决策；再往下一层，就有225*224*223=11,239,200种。这才第三层，就已经快爆炸了。

一般五子棋的高手都能想到后面五六步，甚至十几步。想要与之对抗，我们必须得想办法减少我们的搜索数量，增加我们的搜索深度，这样我们的AI才能看得更远的未来，想得更多，这样棋力才会变强。

这里，我们用到了强大的α-β剪枝技术。它的思路就是，减少所有没有必要的搜索，及时终止，从而节省算力，同时又不能漏过所有可能的最优解。下面来详细介绍一下。

我们先来理解一下，怎么样的搜索是没有必要的，假设我们限定了搜索深度为3，我们从头开始搜索，如下：

我们从根节点往下搜，直到第一个叶子节点：

此时，到达了第一个深度为3的节点，此时我们调用估值函数，假设我们获得它的收益为3，现在我们回头来看它的父节点：

由于，这个父亲节点是MIN节点，我们知道，它总是会选择子节点中最小值。现在，子节点已经出现了一个值为3。

现在仔细想想，如果我们继续获得它的子节点的收益，为一个比3要大的值，假设为12好了。那么当前的父节点，必然不会选择这个12，而会去选择3。因此，这个父亲节点的收益，无论如何，都不会超过3，那么它的取值范围，我们可以认为是：（-∞，3]。也就是说，我们的子节点，其实更新了它的父节点的收益的一个上界值，如图：