耶鲁博弈论 第2节 学会换位思考

耶鲁博弈论 第2节 学会换位思考

一些定义

形成博弈的要素

  • 参与人(players),用 i i i, j j j 表示
  • 参与人的策略(strategies),用 s i s_{i} si s j s_{j} sj 表示;
    所有可能的策略集合 S i S_{i} Si,区别于参与人的策略小写 s s s
    某一次博弈 s s s,用不带下标的 s s s 表示,称为策略组合(a strategy profile),也称为策略向量
  • 博弈的收益(payoffs),用大写的 U U U 表示, U i U_{i} Ui 取决于参与博弈的 N N N 个人的博弈策略,记做 ( s 1 , . . . , s i , . . . , s i ) (s_{1},...,s_{i},...,s_{i}) (s1,...,si,...,si),简写为 U i ( s ) U_{i}(s) Ui(s),由策略组合决定(即所有参与博弈的人)

我们用 s − i s_{-i} si 表示除了 i i i 之外的其他参与者的决策,因为考虑在和对手在不同选择下的收益是很有必要的,填数游戏中以标准形式描述博弈:

U i ( s ) = { 5 美 元 − 误 差 0 U_{i}(s)= \begin{cases} 5美元 - 误差 \\ 0 \end{cases} Ui(s)={50

再用一个例子熟悉使用符号语言来描述博弈:

5, -111, 30, 0
6, 40, 22, 0

这里参与人是 A A A B B B
策略集合是 S 1 = { 上 , 下 } S_{1}=\{上,下\} S1={} S 2 = { 左 , 中 , 右 } S_{2}=\{左,中,右\} S2={}
收益:例如 U 1 ( 上 , 中 ) = 11 U_{1}(上,中)=11 U1()=11 U 2 ( 下 , 右 ) = 0 U_{2}(下,右)=0 U2()=0
显然对于参与者 B B B,右是严格劣势策略。因此我们给出 严格优势策略的定义:

参 与 人 i 的 策 略 s i ′ 严 格 劣 于 参 与 人 i 的 另 一 个 策 略 s i , 在 其 他 参 与 者 选 择 s − i 时 , 选 择 s i 的 收 益 U i ( s i ) 严 格 优 于 此 情 况 下 s i ′ 的 收 益 U i ( s i ′ ) \begin{aligned} 参与人 i 的策略 s_{i}^{'} 严格劣于参与人 i 的另一个策略 s_{i},在其他参与者\\ 选择 s_{-i} 时,选择 s_{i} 的收益 U_{i}(s_{i}) 严格优于此情况下 s_{i}^{'} 的收益 U_{i}(s_{i}^{'}) \end{aligned} isiisisisiUi(si)siUi(si)

再来一个例子:

汉尼拔将军将要攻打一个国家,他有两个营的兵力,他可以选择从崎岖道路(翻过阿尔卑斯山)进军(但是行军途中要损失一个营的兵力),也可以选择从平坦的道路(平原)进军(途中没有损失)。防守者只能在崎岖道路和平坦道路其中之一设防,当进攻者遇到防守者时,进攻者将损失一个营的兵力。若你是防守者,你该选择何处设防?

双方收益如下:(行是防守者,列是进攻者)

easyhard
easy1, 11, 1
hard0, 22, 0

在这个例子中,防守者似乎没有严格优势策略,但是对于汉尼拔将军(进攻方)来说,选择平坦道路进攻似乎优于从崎岖道路进攻,这只是一个优势策略,并非严格优势,只是一个弱优势。我们引出 弱优势 的定义:

参 与 人 i 的 策 略 s i ′ 弱 于 参 与 人 i 的 另 一 个 策 略 s i , 在 其 他 参 与 者 选 择 s − i 时 , 选 择 s i 的 收 益 U i ( s i ) 大 于 等 于 此 情 况 下 s i ′ 的 收 益 U i ( s i ′ ) , 即 U i ( s i , s − i ) ≥ U i ( s i ′ , s − i )   f o r   a l l   s − i U i ( s i , s − i ) > U i ( s i ′ , s − i )   f o r   s o m e   s − i \begin{aligned} \begin{array}{c} 参与人 i 的策略 s_{i}^{'} 弱于参与人 i 的另一个策略 s_{i},在其他参与者\\ 选择 s_{-i} 时,选择 s_{i} 的收益 U_{i}(s_{i}) 大于等于此情况下 s_{i}^{'} 的收益 U_{i}(s_{i}^{'}),即\\ U_{i}(s_{i},s_{-i}) \geq U_{i}(s_{i}^{'},s_{-i})\ for\ all\ s_{-i} \\ U_{i}(s_{i},s_{-i}) > U_{i}(s_{i}^{'},s_{-i})\ for\ some\ s_{-i} \end{array} \end{aligned} isiisisisiUi(si)siUi(si)Ui(si,si)Ui(si,si) for all siUi(si,si)>Ui(si,si) for some si

回到填数游戏

好,那么我们现在回到第一节课的填数游戏,在 1 − 100 1-100 1100 之间任选一个数,最接近平均数的 2 3 \frac{2}{3} 32 的人获胜。

老师询问了填 33 − 35 33-35 3335 之间的数的同学,他们回答:大家在 1 − 100 1-100 1100 之间随机选择一个数,最后平均值会在 50 50 50 左右,而 50 50 50 的三分之二就是 33 33 33 左右。

这个说法看似正确,但是却忽略了一个重要前提:教室里的人并不会随机选择一个数,他们都想赢得这5美元。若人人都这样想,最终平均值会趋近于 33 33 33,而 33 33 33 的三分之二是 22 22 22。然而,这还是太大了。

再次重申这个游戏的重点:每个人都有自己的策略,每个人都想赢。

那么我们来分析一下这个游戏,哪些选择是(弱)劣势策略?

设想最坏的情况,每个人都选了 100 100 100 那么这样最终的结果也只是 66 2 3 66\frac{2}{3} 6632 最接近的是 67 67 67,那么选择大于 67 67 67 的数相对于 67 67 67 来说就是弱劣势策略。这样对于理智的人来说,游戏简化成了在 1 − 67 1-67 167 之间选择一个数,因为他们知道没人会选择 67 67 67 以上的数。
同样,相似的策略也会被排除,这样, 45 45 45 以上的数也不会有人选。但是 45 − 67 45-67 4567 之间的数在原博弈中并不是弱劣势策略,可是我们排除掉 67 − 100 67-100 67100 的时候, 45 − 67 45-67 4567 便成为了弱劣势策略。同理, 30 − 45 30-45 3045 也被排除, 20 − 30 20-30 2030 14 − 20 14-20 1420…直至 1 1 1.

尽管 1 1 1 就是这个游戏的最优策略,但是这一切都是建立在参与人都是理性的情况下,并且理性的参与者知道其他人也都是理性的。我们用术语共同知识来描述类似:我知道,我知道你知道,我知道你知道我知道…这样的循环。但是实际上,每个区间的数都有人选择,这就要考虑分布的问题了。最终老师公布结果,平均数在 13 13 13 左右,最终选择 9 9 9 的人获得了胜利,巧的是,这也是所有人选择的中位数。

按照之前的最优策略,为什么 1 1 1 不是最终结果呢?尽管有相当一部分人选择了 1 1 1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值