博弈论coursera

1-7 纳什均衡

第一个人选择行动a1,第二个人的行动叫a2,依次类推。
把除了i外其他人的行动放在一起称为a-i,
在这里插入图片描述

最优对策
在这里插入图片描述
!! 注意是大于等于号而不是大于号。

解释:在已知其他n-1个人的行动组合是a-i的情况下,我(i)选择ai的收益最高,就称ai是i个体在其他个体行动为a-i下的最优对策。

纳什均衡
在这里插入图片描述
解释:所有人都觉得自己处于最优策略了。以双人博弈为例。对双方来说都符合:对方行动不变时,我不会改变行动。

例子:

在这里插入图片描述

对双方来说,(D,D)是纳什均衡,因为此时双方都不会改变行动(比如玩家1改变行动会使得自己从-3变为-4,所以他不会变),而另外三个行动组合都是不稳定的,会存在某一人想改变。

解题:

对每一个状态(cell),看这一行有没有可以转移的,看这一列有没有转移的。如果都没有就是纳什均衡。比如上面的除了(d,d)都有转移。

在这里插入图片描述

1-9 Dominant Strategies 占优博弈

si是i个体的某个策略。S-i是其他个体策略组合的集合(例如包括元素:s-1:即{s1,s2…si-1, si+1,sn},即个体k选择策略sk)。si比si‘严格占优当:
在这里插入图片描述

解释:无论其他n-1个个体选择什么策略,得到什么样的策略组合s-i∈S-i,我(个体i)用si策略的收益总是比用si’的收益高。

我的理解:这里说的策略其实就是行动。虽然一般策略不等于行动,策略是其他人做出什么行动时我的行动,比如下棋时如果你下A点我就下B点,如果你下C我就下D,这整个称为策略。但是在这里,无论其他人是什么策略,也就是无论你怎么下,我都固定为一个策略si,因此si不考虑对方怎么下,si必定是固定下B点。因此此时策略就是行动。当然,这种博弈是双方同时行动,所以用下棋类比不太对。
这里的策略就是确定的行动。与之相对的是随机行动,比如硬币游戏(或者划拳)中我会使用随机出正反而不是固定出正的策略,此时的策略是混合策略。

弱占优
在这里插入图片描述
解释:大于等于说明在某个s-i下,可能si等于si’。甚至可能所有情况下si都等于si’。即可能是三种情况:严格占优;完全相等;有时相等。

严格占优的意义

si比si‘严格占优,因此我永远不用选择si‘,不管别人怎么选。
如果si比其他策略都占优,我直接选si,不管别人怎么选。
如果si比其他策略都占优,si叫做diminant Strategies (占优策略)

当所有人都选择占优策略,这样的策略组合会在纳什均衡当中(会得到纳什均衡),因为此时没有人会想改变行动。
当所有人都选择占优策略,这样的纳什均衡只有一个(不论纯策略和混合策略),因为每个人只有一个占优策略,

举例:

在这里插入图片描述
在囚徒合作博弈中,对于个体1,当个体2选c时,个体1选d收益更大,当个体2选d时,个体1选d收益更大。因此个体1的占优策略是:总是选d。对于个体2同样如此,因此纳什均衡是 (d, d)。

1-10 Pareto Optimality 帕累托最优

两个outcome(结果收益)o和o’相比,o至少不劣于 o’,并且对某个人来说o比o‘好,则称o Pareto-dominates o’。

Pareto Optimality 帕累托最优: 没有其他结果比o更Pareto-dominates,则o是帕累托最优。

帕累托最优可能有多个。比如无论怎么选所有人收益都是1,此时每个结果都不劣,都是帕累托最优。
帕累托最优至少有一个。 因为Pareto-dominates具有传递性,a不劣于b,b不劣于c则a必定不劣于c,因此总存在一个a不劣于任何结果。因此不存在帕累托最优循环(即不存在a>b>c>d>a)

例子:

在这里插入图片描述
两个最优。(1,1)优于(0,0),因为这一结果对个体1,个体2都更好。

在这里插入图片描述
4个最优。因为任意两个都不能比较。都不存在优劣关系。事实上,所有零和博弈,都符合:所有结果都最优。

解题:

怎么看出帕累托最优有哪些?对于双人博弈,可以把收益看作坐标在坐标轴上标出。如果某点A右上角存在点B,则A不是最优,否则是最优。

2

2-1 混合策略 mixed strategy,纳什均衡

以硬币游戏为例(两人相同1赢)
在这里插入图片描述
我不可能使用固定出正面的策略,我会使用0.5概率正,0.5概率反面的策略。

纯策略就是只有一种行动
混合策略就是超过一种行动,每种行动概率是正数。把这些行动(如正反这两个行动)称为我混合策略的支撑(support)。

i的所有策略用Si表示。所有策略的组合集合称为S。S=S1xS2…Sn

此时,给定一个s∈S,不能算出最终每个人的收益。比如上面的硬币游戏,s=两人都随机出正反。那么最后的收益可能是4个格子中任意一个。此时的收益是一个期望:

在这里插入图片描述
pr是出现行动组合a的概率。即个体1行动为a1,且个体2行动为a2。。。的概率。

最优

和纯策略时相比,把a换成s,得到下面:
在这里插入图片描述
解释:注意这里Si是无限集合。因为i有无穷的混合策略。当si*收益大于等于其他任何策略,就在最优对策。
如果所有人都在最优对策,那么此时处于纳什均衡。

理论:所有有限博弈,都存在纳什均衡。(Every finite game has a Nash equilibrium.)
有限指的是人数有限且人数的行动集合有限。因此可能的结果也有限。
这里的纳什均衡不一定是纯策略纳什均衡(pure stratety),如果是纯策略,得不到这个理论。

纳什均衡意味着此时对每个人来说,即便他知道了其他人的策略,他也不会改变策略

例子:

硬币游戏中,没有纯策略纳什均衡。但是有一个混合策略纳什均衡。即都以0.5的概率随机正面。

在下面的博弈中:
在这里插入图片描述
存在两个纯策略纳什均衡 :(L, L)(R,R)。以及一个混合纳什均衡:(0.5L+0.5R, 0.5L+0.5R)。
注意(0.5L+0.5R, L)不是纳什均衡。因为对于2来说不论怎么选期望收益都不变(0.5),因此他是最优策略(best response),但是对玩家1,使用策略(L)可以使得自己的收益从0.5变为1.所以他不在最优策略。

计算纳什均衡

一种适合小问题的方法。
纳什定理给出了纳什均衡存在性,但是没告诉我们怎么求。

在这里插入图片描述

首先找出support,均衡时每个人行动集合中概率非负的行动。这里对两个人都是B、F。

接着假设达到均衡时,2选B的概率是p
在这里插入图片描述
对1来说,他选B和F的收益应该相同(否则如果选B对他好,他就会固定选B):
在这里插入图片描述
p=1/3,同样的方法,计算出玩家1选b的概率2/3。算出的概率在-1

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值