组合游戏系列1: Leetcode中的Minimax 和 Alpha Beta剪枝

本文介绍了如何使用Minimax算法和Alpha-Beta剪枝策略解决LeetCode中的回合制游戏问题,如292 Nim Game、486 Predict the Winner和464 Can I Win。通过递归和动态规划方法,优化解决方案,降低时间复杂度,实现游戏的最优解策略。文章还探讨了不同编程语言(C++, Java, Javascript)的AC代码实现。" 126274556,14890787,Python异常处理详解与assert用法,"['Python', '异常处理', '断言']
摘要由CSDN通过智能技术生成

本系列,我们来看看在一种常见的组合游戏——回合制棋盘类游戏中,如何用算法来解决问题。首先,我们会介绍并解决搜索空间较小的问题,引入经典的博弈算法和相关理论,最终实现在大搜索空间中的Deep RL近似算法。在此基础上可以理解AlphaGo的原理和工作方式。
本系列的第一篇,我们介绍3个Leetcode中的零和回合制游戏,从最初的暴力解法,到动态规划最终演变成博弈论里的经典算法: minimax 以及 alpha beta 剪枝。

  • 第一篇 Leetcode中的Minimax 和 Alpha Beta剪枝

  • 第二篇: 一些组合游戏的理论

  • 第三篇: 连接N个点 的OpenAI Gym GUI环境

  • 第四篇: 蒙特卡洛树搜索(MCTS)和时间差分学习(TD learning)

Leetcode 292 Nim Game (简单)

简单题 Leetcode 292 Nim Game

你和你的朋友,两个人一起玩 Nim游戏:桌子上有一堆石头,每次你们轮流拿掉 1 - 3 块石头。 拿掉最后一块石头的人就是获胜者。你作为先手。
你们是聪明人,每一步都是最优解。 编写一个函数,来判断你是否可以在给定石头数量的情况下赢得游戏。

示例:
输入: 4
输出: false
解释: 如果堆中有 4 块石头,那么你永远不会赢得比赛;因为无论你拿走 1 块、2 块 还是 3 块石头,最后一块石头总是会被你的朋友拿走。

定义 f ( n ) f(n) f(n) 为有 n n n个石头并采取最优策略的游戏结果, f ( n ) f(n) f(n)的值只有可能是赢或者输。考察前几个结果: f ( 1 ) = f ( 2 ) = f ( 3 ) = W i n f(1) = f(2) = f(3) = Win f(1)=f(2)=f(3)=Win,然后来计算 f ( 4 ) f(4) f(4)。因为玩家采取最优策略(只要有一种走法让对方必输,玩家获胜),对于4来说,玩家能走的可能是拿掉1块、2块或3块,但是无论剩余何种局面,对方都是必赢,因此,4就是必输。总的说来,递归关系如下:
f ( n ) = ¬ ( f ( n − 1 ) ∧ f ( n − 2 ) ∧ f ( n − 3 ) ) f(n) = \neg (f(n-1) \land f(n-2) \land f(n-3)) f(n)=¬(f(n1)f(n2)f(n3))

这个递归式可以直接翻译成Python 3代码

# TLE
# Time Complexity: O(exponential)
class Solution_BruteForce:

    def canWinNim(self, n: int) -> bool:
        if n <= 3:
            return True
        for i in range(1, 4):
            if not self.canWinNim(n - i):
                return True
        return False

以上的递归公式和代码很像fibonacci数的递归定义和暴力解法,因此对应的时间复杂度也是指数级的,提交代码以后会TLE。下图画出了当n=7时的递归调用,注意 5 被扩展向下重复执行了两次,4重复了4次。

292 Nim Game 暴力解法调用图 n=7

我们采用和fibonacci一样的方式来优化算法:缓存较小n的结果以此来计算较大n的结果。 Python 中,我们可以只加一行lru_cache decorator,来取得这种动态规划效果,下面的代码将复杂度降到了 O ( N ) O(N) O(N)

# RecursionError: maximum recursion depth exceeded in comparison n=1348820612
# Time Complexity: O(N)
class Solution_DP:
    from functools import lru_cache
    @lru_cache(maxsize=None)
    def canWinNim(self, n: int) -> bool:
        if n <= 3:
            return True
        for i in range(1, 4):
            if not self.canWinNim(n - i):
                return True
        return False

再来画出调用图:这次5和4就不再被展开重复计算,图中绿色的节点表示缓存命中。

292 Nim Game 动归解法调用图 n=7
但还是没有AC,因为当n=1348820612时,这种方式会导致栈溢出。再改成下面的循环版本,可惜还是TLE。
# TLE for 1348820612
# Time Complexity: O(N)
class Solution:
    def canWinNim(self, n: int) -> bool:
        if n <= 3:
            return True
        last3, last2, last1 = True, True, True
        for i in range(4, n+1):
            this = not (last3 and last2 and last1)
            last3, last2, last1 = last2, last1, this
        return last1

由此看来,AC 版本需要低于 O ( n ) O(n) O(n)的算法复杂度。上面的写法似乎暗示输赢有周期性的规律。事实上,如果将输赢按照顺序画出来,就马上得出规律了:只要 n m o d    4 = 0 n \mod 4 = 0 nmod4=0 就是输,否则赢。原因如下:当面临不能被4整除的数量时 4 k + i ( i = 1 , 2 , 3 ) 4k+i (i=1,2,3) 4k+i(i=1,2,3) ,一方总是可以拿走 i i i 个,将 4 k 4k 4k 留给对手,而对方下轮又将返回不能被4整除的数,如此循环往复,直到这一方有1, 2, 3 个,最终获胜。

输赢分布

最终AC版本,只有一句语句。

# AC
# Time Complexity: O(1)
class Solution:
    def canWinNim(self, n: int) -> bool:
        return no
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值