无偏博弈和数学游戏

  • http://www.blogbus.com/yjq24-logs/42455293.html

    《古畑任三郎》之数学家杀人事件中有这么一个小插曲,这是古畑和数学家之间的一个小游戏:随意说一个数n,比如16吧,然后从1开始数到16,每人每次可以数1到3个数,规定最后数到16的人就输了。我们可爱的古畑大叔并不知道其中诀窍,所以连着输了两局;但是过了两天,古畑从另一个数学家那里掌握了诀窍,大致来看是这样的:要让对方数到16的话,自己就要数到15才行,而要数到15只要数到11就可以了,要数到11只要数到7就可以了,要数到7就要数到3,所以呢,谁先数到3,然后一步步数到7,11,15就能赢了。另外就是关于这个n,如果n模4余2的话,开始拿下1的人就能赢得胜利;如果n模4余3的话,就开始拿下2就行了;余数为1的时候,拿下4就行了,不过这个只有后手才能拿;余数为零的时候,就像16的例子一样,拿下3就行了。

    好了,诸如此类的博弈其实更接近一个纯数学问题,这类问题基本上有如下一些共性:

    有两名玩家;

    游戏有一个确定的状态(局面),该局面是双方可见的(完全信息);

    规则对游戏双方是相同的(公平的),它规定了哪些操作(策略)是可行的;

    玩家的操作将使游戏从一个状态确定地走向另一个状态;

    当局面到达某些状态时,游戏结束,游戏将在有限步之内结束。

    满足上述所有条件的游戏,称为无偏博弈。


    比如说五子棋就不能算是无偏博弈,因为黑棋有禁手?就算是无禁手的五子棋也不是无偏博弈,两名玩家的策略集合面对同一局面应该是一样的,也就是说,或者让棋子只有黑色或只有白色,或者让两个人同时可以使用白色和黑色的棋子,而且游戏结束条件也必须无偏差,不能规定黑棋代表一个人,白棋代表另一个人。这当然就不能算是一般意义的五子棋了。这类的游戏有许多许多,但是把握住了关键的话,什么游戏都是一样的了。

    实际上上面那个古畑先生玩的游戏我最早是在小学的《暑假生活》上看到过类似的了,我记得当时这个游戏叫“抢30”,也就是说n=30,而且是抢到30的人赢,但是实际上抢到最后一个数算赢算输不影响游戏的本质,如果抢到n算输的话,其实就是要抢到n-1,然后让对方不得不报n。考虑一个和上面古畑先生玩的相同性质的一个“取石子游戏”:桌子上有15个石子,每人每次可以拿去1到3个石子,拿走最后一个石子的人赢。

    这其实不管从推理还是从结论上说都和之前的游戏一样,我之所以用石子代替是因为石子的数量总是递减的,而这个游戏的结束条件就是没有石子的时候,轮到谁就输了。可以用余下石子的数量来确定局面,所以这个游戏,一共就是16个局面,S={0,1,2,…,15}.而且知道0是一个先手必败的局面,这里我用了“先手必败”,意思是面临这个局面先动手的人输,以后就简称为必败态。和上面的分析一样,0是必败态,那么当局面为1,2,3时,先手就可以采取相关策略把局面变成0,于是称1,2,3为胜态;当局面为4时,不论采取何种策略,局面都将走向胜态,从而4是一个必败态。

    好了不用分析下去了,现在我们知道,一个无偏组合博弈局面可以分成两种:必败态和胜态。

    胜态一定可以通过某种策略走向必败态;而必败态采取任何策略都将走向胜态。

    必败态又叫做奇异局势,或者叫P态(winning for Previous player),胜态又叫做非奇异局势,或者叫N态(winning for Next player),从以上的分析可以看到,必败态是少数,而胜态是多数,并且一个状态不是必败态就是胜态。所以我们只需要抓住必败态即可。

    理论上来说,对一个游戏,我们总能手推找到一些小数目的必败态,然后找出一步可抵达到这些必败态的胜态,再确定新的必败态。这话说到这个份上,谁都知道应该用一张有向图来表示局面了,每个结点代表一个局面,用有向边来表示合法的操作。因为规则对双方都相同的,所以两个人的图都是一样的。对于图,下次再分析。

    接下来,作为一个小练习,还是刚才的取石子游戏,桌子上有15个石子,每人每次可以拿去1个或3个石子,拿走最后一个石子的人赢,列出所有的必败态。

    答案很简单了,必败态为:0,2,4,6,8,10,12,14,我们知道这是一个先手赢的游戏~


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值