博弈论自学(四)

一、最大最小策略例题
 

矩阵博弈
CD
A31
B24

对于上述博弈结果,如果只采取纯策略:
① 甲的最大最小策略是什么?甲的最大最小值是什么?
② 甲的最小最大策略是什么?甲的最大最小值是什么?
③ 如果允许参与者采用混合策略①和②的结果又是什么?

问题一的解答:若甲选择A则甲认为乙必然最不利于自己的也就是D,此时甲的效用是1,若甲选择B则甲认为乙必然选择最不利于自己的也就是C,此时甲的效用是2,在最小中取最大即2,甲的最大最小策略为(B,C),甲的最大最小值为2

问题二的解答:若乙选择C则甲选择最有利于自己的也就是A,此时甲的效用是3,若乙选择D则甲选择最有利于自己的也就是B,此时甲的效用是4,甲认为乙必然会选择最不利于甲的情况即甲认为乙会选择C,那么甲选择A,甲的最小最大策略为(A,C),甲的最小最大值为3

问题三的解答:甲混合策略下的甲的最大最小策略:假设甲选择A的概率为P,甲选择B的概率为(1-P),那么若乙选择C甲的效用为3P+2(1-P)即为2+P,若乙选择D甲的效用为P+4(1-P)即为4-3P,则可以在坐标系中画出对应的图形,在P<1/2时,选择C的效用小于D的效用,甲认为乙必定会选择最不利于甲的策略,所以此时最大最小值为:2+P;在P>1/2时,选择D的效用小于C的效用,甲认为乙必定会选择最不利于甲的策略,所以此时最大最小值为:4-3P;P=1/2两者皆可;
同样的,乙混合策略下甲的最大最小策略:假设乙选择C的概率为Q,乙选择D的概率为(1-Q),那么甲选择A的概率为3Q+(1-Q)即为1+2Q,甲选择B的概率为2Q+4(1-Q)即为4-2Q,在Q<3/4时,选择A的效用大于B,甲认为乙必定会选择最不利于甲的策略,所以此时最大最小值为:1+2Q;在P>3/4时,选择B的效用小于A的效用,甲认为乙必定会选择最不利于甲的策略,所以此时最大最小值为:4-3P;P=3/4两者皆可;
这里考虑一个问题:乙的策略应该和甲相反,这样要想两者达成均衡P=1/2;Q=3/4

二、纳什均衡
       纳什均衡:如果存在这样一个策略组合——给定该策略组合中其他参与者的选择,没有人有积极性改变自己的选择,我们就说该策略组合是一个纳什均衡。(国家在指定政策的时候,会考虑到地方对该政策的应对,即上有政策下有对策,只有符合纳什均衡的政策才是最优政策)
       纳什均衡的特征:① 互为最优反应;② 自我实施的协议
       严格纳什均衡:策略组合\dot{S}是一个严格纳什均衡,当且仅当u_{i}(\dot{s_{i}},\dot{s_{-i}})> u_{i}(s_{i},\dot{s_{-i}})\forall i=1,...,n;若该式中只能以“≥”代替“>”,则称策略组合\dot{S}为一个弱纳什均衡。

 

求纳什均衡点
100,1000,050,101
50,01,160,0
0,3000,0200,200

如上表格例子,对于甲在若乙选择左的情况下甲会选择上为100最大即左上;甲在若乙选择中的情况下会选择中为1最大即乙中中;甲在若乙选择右的时候选择下为200最大即下右;同样的,乙会选择右上中中左下,两者共同的选择是(中,中)为纳什均衡点(上经济学的时候用的是划线法/(ㄒoㄒ)/~~)(经济学上求纳什均衡最经典的应该就是:Bertrand competition和Cournot competition了(个人对以前经济学的回忆))

纳什均衡博弈实验:n人正在目击一场犯罪。每个人都希望警察赶来,但宁可别人去报警。假定,若无人报警,每人的收益为0;若有人报警,则报警者的收益为v-c,而未报警者的收益为v,且 v>c>0。如果你是其中一个目击者,该如何抉择?求这N个目击者的纳什均衡解

假设N个目击者报警的概率分别为P_{1},P_{2}...P_{N},对于每一个人来说他们报警的效用都是v-c,为常数,期望也为v-c;对于第i个人来说他不报警的期望可以分解成两部分,若其他人都不报警,此时的概率为(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}),无人报警的收益为0,所以此时的效用两者相乘为0,其他情况下比有人报警,概率为1-(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}),有人报警的收益都为V,所以此时的效用为:(1-(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}))·V,总的期望也为(1-(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}))·V;这里需要考虑一个纳什均衡的前提,在纳什均衡的情况下每个个体做出的任何选择都是无差异的,所以v-c=(1-(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}))·V,那么有(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}) = c/v;下面就是数学方法,左边i取1,2...n相乘就是((1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i})(1-p_{i+1})...(1-p_{N}))^{N-1},右边就是(c/v)^{N},左右开方得到(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i})(1-p_{i+1})...(1-p_{N}) =(c/v)^{N/(N-1)},在拿这个式子和(1-p_{1})(1-p_{2})...(1-p_{i-1})(1-p_{i+1})...(1-p_{N}) = c/v左右相除,得到P_{i}=1-(c/v)^{1/(N-1)},可以看出目击者越多报警的概率就越小,(当然c如果特别小,对整体影响不大,不过这结果过于现实/(ㄒoㄒ)/~~
 

  • 19
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值