纳什均衡和博弈论基础

博弈论

1.玩家:N= {1, ... , n}

2.行动:玩家可以采取某些行动来影响世界

3.收益:效用

4.偏好:对于结果的偏好(完备性、传递性)

5.策略互动:一般性、抽象性的框架(在博弈论中,策略互动是指个体之间的互动和决策过程。)

--例1

两名罪犯被捕。审问者没有足够的证据定罪,但可以因为一次轻罪将他们定罪。

  • 两人都坦白:被判刑2年
  • 若其中一个坦白,另一个不坦白,坦白的一方被释放,而另一方被判3年。
  • 两人都保持沉默:两人都因轻罪被判刑1年。
沉默坦白
沉默-1,-1-3,0
坦白0,-3-2,-2

“正态形式的游戏”:矩阵表示法   “Normal-form games”: Matrix representation

正态形式的游戏 Normal-Form Games

有些复杂一些的问题没有办法用矩阵表达,比如造反问题。

--例2

共有100,000个人,每个人可以选择造反或者不造反,只有达到20,000个人才算造反成功。

如果造反达到人数要求,无论决策者选择什么收益都是1;

如果造反没有达到人数要求,则决策者选择造反的收益是-1;

如果造反没有达到人数要求,则决策者选择不造反的收益是0。

纯策略纳什均衡 

--例3

两名罪犯被捕。审问者没有足够的证据定罪,但可以因为一次轻罪将他们定罪。

  • 两人都坦白:被判刑2年
  • 若其中一个坦白,另一个不坦白,坦白的一方被释放,而另一方被判3年。
  • 两人都保持沉默:两人都因轻罪被判刑1年。
沉默坦白
沉默-1,-1-3,0
坦白0,-3-2,-2

1.已知:犯罪分子1 -> 保持沉默

   犯罪分子2:

(1) 保持沉默 -> (-1,-1):犯罪分子1判1年,犯罪分子2判1年

(2)坦白 -> (-3,0):犯罪分子1判3年,犯罪分子2判0年

  对于犯罪分子2,坦白是最佳行动。

2.已知:犯罪分子1 -> 坦白

  犯罪分子2:

(1) 保持沉默 -> (0,-3):犯罪分子1判0年,犯罪分子2判3年

(2)坦白 -> (-2,-2):犯罪分子1判2年,犯罪分子2判2年

  对于犯罪分子2,坦白是最佳行动。

3.已知:犯罪分子2 -> 保持沉默

  犯罪分子1:

(1) 保持沉默 -> (-1,-1):犯罪分子1判1年,犯罪分子2判1年

(2)坦白 -> (0,-3):犯罪分子1判0年,犯罪分子2判3年

  对于犯罪分子1,坦白是最佳行动。

4.已知:犯罪分子2 -> 坦白

犯罪分子1:

(1) 保持沉默 -> (-3,0):犯罪分子1判3年,犯罪分子2判0年

(2)坦白 -> (-2,-2):犯罪分子1判2年,犯罪分子2判2年

  对于犯罪分子1,坦白是最佳行动。

结果:纯粹纳什均衡:(坦白, 坦白)。

 

纯战略均衡总是纳什均衡(在纯战略中),而纳什均衡并不总是纯战略均衡;它可能是纯战略均衡,也可能是混合战略均衡。 

混合纳什均衡

  • 以安保设置检查关卡、攻击者制定策略攻击关卡的博弈问题引出混合策略。防止被预测
  • 纯策略每次决策选择的是具体的动作,而混合策略每次决策选择的是概率分布。纯策略纳什均衡是混合策略纳什均衡的一种。
  • 纯策略均衡:每个决策者都是根据已知其他决策者的选择从而做出决策,并且在已知其他决策者选择的前提下没有改变自己决策的动机。
  • 混合策略均衡:每个决策者只可以调整自己的决策分布,而自己的效用则由其他决策者的决策分布决定。

计算2x2博弈中的纳什均衡

步骤1:计算至少有一个玩家采用纯策略的所有纳什均衡。

步骤2:计算两个玩家都在两种策略之间混合的所有纳什均衡。

在这种情况下,每个玩家必须在这两种策略之间持中立态度。

 

Dominant Strategies 主导策略: 

迭代剔除劣势策略 

--Example 10

金球游戏

每个玩家都有一套两个球,一个标有“分割”而另一个标有“偷取”。设有一个奖金池,例如说,$1000。

• 如果两位玩家都选择“分割”,他们每人得到奖金池的一半。

• 如果一名玩家选择“分割”而另一名玩家选择“偷取”,选择“偷取”的玩家将得到整个奖金池,而选择“分割”的玩家什么都得不到。

• 如果两位玩家都选择“偷取”,他们两人都什么都得不到。

 

“分割”并没有被“偷取”严格主导,所以不能移除“分割”!

情况1:至少有一位玩家采纳纯策略

1.A -> 分割:B-> 分割=>(500,500), B-> 偷取=>(0,1000) , (分割, 偷取)

2.A -> 偷取:B-> 分割=>(1000,0), B-> 偷取=>(0,0)

3.B -> 分割:A-> 分割=>(500,500), A-> 偷取=>(1000,0) , (分割, 偷取)

4.B -> 偷取:A-> 分割=>(0,1000), A-> 偷取=>(0,0)

• 行选择偷取 --> 列 = q*分割 + (1-q)偷取 对于任何 0 <= q <= 1 --> 行选择偷取是对于每个q的最佳回应 --> (偷取, q分割 + (1-q)偷取)

• 从列开始的相似推理 --> (偷取, 分割), (p分割 + (1-p)偷取, 偷取)

总结:(偷取, q分割 + (1-q)偷取) 对于任何 0 <= q <= 1

(p分割 + (1-p)*偷取, 偷取) 对于任何 0 <= p <= 1

情况2:两位玩家都在两种策略之间混合

假设行玩家以概率(p, 1-p)选择(分割, 偷取),而列玩家以概率(q, 1-q)选择,其中 0 < p, q < 1

• 行玩家持中立态度 --> 500q + 0(1-q) = 1000q + 0(1-q) --> q = 0

• 这与本案例的假设相矛盾!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值