组合博弈 -- 三大基本博弈

       这几天开始学习博弈,发现这一块是个难啃的骨头。以下是我从网上收集的资料汇总:

       我国民间有个古老的游戏:就是有物品若干堆,(物品可以是火柴,围棋都可以)。两个人轮流从堆中取若干件,规定取光物体者为胜。这个就是我们今天要研究的组合游戏。

组合游戏定义:

       1、有且仅有两个玩家    2、游戏双方轮流操作    3、游戏操作状态是个有限的集合(比如:取石子游戏,石子是有限的,棋盘中的棋盘大小的有限的)  4、游戏必须在有限次内结束  5、当一方无法操作时,游戏结束。

现在我们来研究如何取胜:

(一)巴什博奕Bash Game):有一堆n个物品,两人轮流从堆中取物品,每次取 x 个 ( 1 ≤ x ≤ m)。最后取光者为胜。

         如果 n = m + 1, 一次至多取 m 个,所以无论先取者,取了多少个,一定还剩余 x 个( 1 ≤ x ≤ m)。所以,后取者必胜。因此我们发现了取胜的秘诀:如果我们把 n 表示为

n = (m + 1)  * r + s 。(0 ≤ s  < m , r ≥ 0)。先取者 拿走 s 个, 后取者 拿走 k 个  (1 ≤ k ≤ m),那么先取者 再 拿走 m + 1 - k 个。结果还剩下 ( m + 1 ) * ( r - 1 ) 个。我们只要始终给对手留下 m + 1 的倍数,那么 先取者 肯定必胜。 现在 我们可以知道,如果 s = 0,那么后取者必胜。 否则 先取者 必胜。

看完这个可以用这个练练手:hdu 1846 Brave Game

(二)威佐夫博奕Wythoff Game):有两堆各若干个物品,两个人轮流从某一堆或同时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜。

        这种情况下是颇为复杂的。我们用(a[k],b[k])(a[k] ≤ b[k] ,k=0,1,2,...,n)( a[k] 其中 k 为下标 )表示两堆物品的数量并称其为局势,如果甲面对(0,0),那么甲已经输了,这种局势我们称为奇异局势。前几个奇异局势是:(0,0)、(1,2)、(3,5)、(4,7)、(6,10)、(8,13)、(9,15)、(11,18)、(12,20)。

       可以看出,a[0] = b[0] = 0,a[k]是未在前面出现过的最小自然数,而 b[k] = a[k] + k。

奇异局势的性质:   

1、 任何自然数都包含在一个且仅有一个奇异局势中
          由于ak是未在前面出现过的最小自然数,所以有a[k] > a[k-1] ,而 b[k] = a[k] + k > a[k-1] + k > a[k-1] + k - 1 = b[k-1] > a[k-1] 。所以 性质1成立。
2。 任意操作都可将奇异局势变为非奇异局势
          事实上,若只改变奇异局势(a[k],b[k])的某一个分量,那么另一个分量不可能在其他奇异局势中,所以必然是非奇异局势。如果使(a[k],b[k])的两个分量同时减少,则由于其差不变,且不可能是其他奇异局势的差,因此也是非奇异局势。
3。 采用适当的方法,可以将非奇异局势变为奇异局势
         假设面对的局势是(a , b),若 b = a,则同时从两堆中取走 a 个物体,就变为了奇异局势(0,0);如果 a = a[k] ,b > b[k] ,那么,取走b - b[k]个物体,即变为奇异局势;如果 a = a[k] , b < b[k] 则同时从两堆中拿走a - a[b-a] 个物体( 如果不懂为什么减去a - a[b-a], 详见文章最后的注释1)变为奇异局势( a[b-a], a[b-a] + b - a);如果a > a[k] ,b= a[k] + k 则从第一堆中拿走多余的数量a - a[k] 即可;如果a < a[k] ,b= a[k] + k,分两种情况,第一种,a=a[j] (j < k)从第二堆里面拿走 b - b[j] 即可;第二种,a=b[j] (j < k)从第二堆里面拿走 b - a[j] 即可。
          由上述性质可知,如果双方都采取正确操作,那么面对非奇异局势,先取者必胜。
          那么我们要如何判断一个局势是否为奇异局势?公式如下:
          a[k] = [k(1+√5)/2](a[k]这个方括号为下标运算符,[k(1+√5)/2]这个方括号为取整运算符),b[k] = a[k] + k 。奇妙的是其中出现了黄金分割数(1+√5)/2 = 1.618...因此,由a[k],b[k]组成的矩形近似为黄金矩形,由于2/(1+√5)=(√5-1)/2,可以先求出 j = [a(√5-1)/2],若 a = [ j(1+√5)/2],那么a = a[j],b[j] = a[j] + j,若不等于,那么a = a[j]+1,b = a[j] + j + 1,若都不是,那么就不是奇异局势。然后再按照上述法则进行,一定会遇到奇异局势。
看完这个可以做一做 poj 1067 取石子游戏,练练手
【代码实现】
#include <stdio.h>
#include <stdlib.h>
#include <math.h>

int main(){
    int a,b,k,a_k;
    while(scanf("%d%d",&a,&b)!=EOF){
         k = abs(a-b);
         a = a < b? a : b;
         a_k = floor(k*(1.0 + sqrt(5.0))/2);
         printf("%d\n",a!=a_k);
         //输出为0,说明该点为必败点,1为必胜点
    }
    return 0;
}
【文字描述上面代码】
          k = | a - b |,  a[k] =  [ k(1+√5)/2], 如果 a,b中的最小值, min{a,b} 与 a[k]相等,那么 他就是奇异局势。

(三) 尼姆博奕Nimm Game):有三堆各若干个物品,两个人轮流从某一堆取任意多的物品,规定每次至少取一个,多者不限,最后取光者得胜。
    
           这种情况最有意思,它与二进制有密切关系,我们用(a,b,c)表示某种局势,首先(0,0,0)显然是奇异局势,无论谁面对奇异局势,都必然失败。第二种奇异局势是(0,n,n),只要与对手拿走一样多的物品,最后都将导致(0,0,0)。仔细分析一下,(1,2,3)也是奇异局势,无论对手如何拿,接下来都可以变为(0,n,n)的情形。
计算机算法里面有一种叫做按位模2加,也叫做异或的运算,我们用符号(+)表示这种运算,先看(1,2,3)的按位模2加的结果:
1 =二进制01
2 =二进制10
3 =二进制11 (+)
———————
0 =二进制00 (注意不进位)
对于奇异局势(0,n,n)也一样,结果也是0。
任何奇异局势(a,b,c)都有a(+)b(+)c =0。
注意到异或运算的交换律和结合律,及a(+)a=0,:
a(+)b(+)(a(+)b)=(a(+)a)(+)(b(+)b)=0(+)0=0。
所以从一个非奇异局势向一个奇异局势转换的方式可以是:
1)使 a = c(+)b
2)使 b = a(+)c
3)使 c = a(+)b

取火柴的游戏
题目1:今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根, 
可将一堆全取走,但不可不取,最后取完者为胜,求必胜的方法。 
题目2:今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根, 
可将一堆全取走,但不可不取,最后取完者为负,求必胜的方法。
嘿嘿,这个游戏我早就见识过了。小时候用珠算玩这个游戏:第一档拨一个,第二档拨两个,依次直到第五档拨五个。然后两个人就轮流再把棋子拨下来,谁要是最后一个拨谁就赢。有一次暑假看见两个小孩子在玩这个游戏,我就在想有没有一个定论呢。下面就来试着证明一下吧
先解决第一个问题吧。
定义:若所有火柴数异或为0,则该状态被称为利他态,用字母T表示;否则, 
为利己态,用S表示。
[定理1]:对于任何一个S态,总能从一堆火柴中取出若干个使之成为T态。
证明:
    若有n堆火柴,每堆火柴有A(i)根火柴数,那么既然现在处于S态,
      c = A(1) xor A(2) xor … xor A(n) > 0;
    把c表示成二进制,记它的二进制数的最高位为第p位,则必然存在一个A(t),它二进制的第p位也是1。(否则,若所有的A(i)的第p位都是0,这与c的第p位就也为0矛盾)。
    那么我们把x = A(t) xor c,则得到x < A(t).这是因为既然A(t)的第p位与c的第p位同为1,那么x的第p位变为0,而高于p的位并没有改变。所以x < A(t).而
    A(1) xor A(2) xor … xor x xor … xor A(n)
  = A(1) xor A(2) xor … xor A(t) xor c xor … xor A(n)
  = A(1) xor A(2) xor… xor A(n) xor A(1) xor A(2) xor … xor A(n)
  = 0
这就是说从A(t)堆中取出 A(t) - x 根火柴后状态就会从S态变为T态。证毕
[定理2]:T态,取任何一堆的若干根,都将成为S态。
证明:用反证法试试。
      若
      c = A(1) xor A(2) xor … xor A(i) xor … xor A(n) = 0;
      c' = A(1) xor A(2) xor … xor A(i') xor c xor … xor A(n) = 0;
      则有
c xor c' = A(1) xor A(2) xor … xor A(i) xor … xor A(n) xor A(1) xor A(2) xor … xor A(i') xor c xor … xor A(n) = A(i) xor A(i') =0
      进而推出A(i) = A(i'),这与已知矛盾。所以命题得证。
[定理 3]:S态,只要方法正确,必赢。 
  最终胜利即由S态转变为T态,任何一个S态,只要把它变为T态,(由定理1,可以把它变成T态。)对方只能把T态转变为S态(定理2)。这样,所有S态向T态的转变都可以有己方控制,对方只能被动地实现由T态转变为S态。故S态必赢。
[定理4]:T态,只要对方法正确,必败。 
  由定理3易得。 
接着来解决第二个问题。
定义:若一堆中仅有1根火柴,则被称为孤单堆。若大于1根,则称为充裕堆。
定义:T态中,若充裕堆的堆数大于等于2,则称为完全利他态,用T2表示;若充裕堆的堆数等于0,则称为部分利他态,用T0表示。
 
孤单堆的根数异或只会影响二进制的最后一位,但充裕堆会影响高位(非最后一位)。一个充裕堆,高位必有一位不为0,则所有根数异或不为0。故不会是T态。
[定理5]:S0态,即仅有奇数个孤单堆,必败。T0态必胜。 
证明:
S0态,其实就是每次只能取一根。每次第奇数根都由己取,第偶数根都由对 
方取,所以最后一根必己取。败。同理,  T0态必胜#
[定理6]:S1态,只要方法正确,必胜。 
证明:
若此时孤单堆堆数为奇数,把充裕堆取完;否则,取成一根。这样,就变成奇数个孤单堆,由对方取。由定理5,对方必输。己必胜。  # 
[定理7]:S2态不可转一次变为T0态。 
证明:
充裕堆数不可能一次由2变为0。得证。  # 
[定理8]:S2态可一次转变为T2态。 
证明:
由定理1,S态可转变为T态,态可一次转变为T态,又由定理6,S2态不可转一次变为T0态,所以转变的T态为T2态。  # 
[定理9]:T2态,只能转变为S2态或S1态。 
证明:
由定理2,T态必然变为S态。由于充裕堆数不可能一次由2变为0,所以此时的S态不可能为S0态。命题得证。 
[定理10]:S2态,只要方法正确,必胜. 
证明:
方法如下: 
      1)  S2态,就把它变为T2态。(由定理8) 
      2)  对方只能T2转变成S2态或S1态(定理9)
    若转变为S2,  转向1) 
    若转变为S1,  这己必胜。(定理5) 
[定理11]:T2态必输。 
证明:同10。 
综上所述,必输态有:  T2,S0 
          必胜态:    S2,S1,T0. 
两题比较: 
第一题的全过程其实如下: 
S2->T2->S2->T2->  ……  ->T2->S1->T0->S0->T0->……->S0->T0(全0) 
第二题的全过程其实如下: 
S2->T2->S2->T2->  ……  ->T2->S1->S0->T0->S0->……->S0->T0(全0) 
下划线表示胜利一方的取法。  是否发现了他们的惊人相似之处。 
我们不难发现(见加黑部分),S1态可以转变为S0态(第二题做法),也可以转变为 
T0(第一题做法)。哪一方控制了S1态,他即可以有办法使自己得到最后一根(转变为 
T0),也可以使对方得到最后一根(转变为S0)。 
  所以,抢夺S1是制胜的关键! 
  为此,始终把T2态让给对方,将使对方处于被动状态,他早晚将把状态变为S1.

下一次将会和大家介绍,组合博弈游戏中的利器SG函数和SG定理。

注释1:因为奇异局势的项数是有 b[k] - a[k] 的差决定,每一个奇异局势的项数都是独一无二的。也就是说,我们 只能将 (a , b) (a = a[k], b < b[k])转化为 (a[b-a], b[b-a])。因为他们的差是确定的始终都是 b-a,故可以转化为 第 b-a 项。由此我们可以 将  (a , b) (a = a[k], b < b[k]) 转化为奇异局势 (a[b-a], b[b-a])也就是 ( a[b-a], a[b-a] + b - a)。所以我们可以逆推得出,只要将 两边 同时减去 a - a[b-a] 即可。



  • 20
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值