Yale开放课程博弈论4


这节课从足球开始讲起,第一个例子就是罚点球(penalty kicks)的时候踢球的人与守门员的博弈,假设踢球的人有L、M、R三个选择,而守门员扑球则由L和R两个选择的话,一个很直观的收益就是若守门员扑想左边,则往左边射门收益最小,其次是中间,收益最大的则是右边(这里为了简便,以一个L,R来度量两个人的方向和实际中两人相对不太一致)。
踢球\守门 l r
L 4,-4 9,-9
M 6,-6 6,-6
R 9,-9 4,-4
如果按照上节课那样,画出踢球人的收益与守门员向右扑的概率的关系图,我们可以看到,无论守门员采取什么策略,踢球人的最好应对策略都不会是中间。
这里就提到了一个Lesson:Do not choose a strategy that is never a best response for any belief. 


这样看来是不是在比赛中那些往中间射门的人是不是脑袋锈逗了?当然不是,这个模型只考虑了方位,而且收益也不一定符合实际,如果考虑往中间射门的力度往往更大,稍微降低(L,r)和(R, l)的收益、提高(M, l)和(M, r)的收益的话,结果就会不一样,即存在一段区间选择往中间射门才是最优应对策略。


第一个例子基本上就讲到这里,期间老师提到一名句,“Things you should do in life: read Shakespeare and see a soccer game”,哎......真是遗憾这两件事我都没做过,希望将来有机会吧,尤其是希望在下次世界杯之前找到有缘人,到时候一起看世界杯,哈哈!!


接下来介绍的是伙伴(协同)关系(Partnership Game),即两个人一起完成某项工作,总的收益为4(s1+s2+b*s1*s2),两个人需要平分该收益,其中s1和s2的取值范围为[0,4](连续的实数值),player I的收益为总收益的一半再减去自己投入的平方,即0.5*4(s1+s2+b*s1*s2)-s1^2,为了后面的描述这里不妨设为f1,每个人该投入多少才能最大化自己的收益呢?


首先,我们可以看到player I的收益已经表示成了s1和s2的表达式f1,如何用s2表示s1最大化f1,这是一个求微分的问题。首先让f1对s1求一阶微分,并令其等于0,把s2看做已知数求出s1,得到s1 = 1 + b*s2。(在对f1'求二阶微分,得到-2<0可知该点得到的为f1的最大值)。由于s1和s2具有对称性,同样可以得到player II的最佳应对策略与s1的关系,即s2 = 1 + b*s1。


然后,与上面几个例子类似,可以画出以s1为横坐标,以s2为纵坐标的两者的关系图,虽然从图中我们不能直接选出最优的应对策略,但是我们可以排除[0,1]和[2,4],即删除非最佳应对策略。有意思的是删除这部分之后放大在[1,2]*[1,2]的区间上放大该关系图,我们看到这个关系图与在[0,4]*[0,4]上是一模一样的,同样可以继续删除[1,5/4]和[6/4,2]。以此类推,可以得到两者最终都会选择交点处的策略,即1/(1-b),最后提到了该点有一个术语叫做纳什均衡,表示参与者都采用了自己的最佳对策。【注:与下面的图差不多,但标示可能不一致】




得到上面的结论后我们不免要考虑这样一个问题:按照两个人的博弈算出来的最优应对策略是合理的吗?即他们是否实现了最优效率?
答案显然是没有,有同学认为是因为在协同工作中每个人都觉得如果自己投入多了别人懈怠的话自己就吃亏了,其实这是囚徒困境的心理,并不能说明本例。而本例的问题出现在边际,也就是说每个人若多出一份力就多承担一份边际成本,但是得到的却只有半分边际收益。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值