博弈论
1.玩家:N= {1, ... , n}
2.行动:玩家可以采取某些行动来影响世界
3.收益:效用
4.偏好:对于结果的偏好(完备性、传递性)
5.策略互动:一般性、抽象性的框架(在博弈论中,策略互动是指个体之间的互动和决策过程。)
--例1
两名罪犯被捕。审问者没有足够的证据定罪,但可以因为一次轻罪将他们定罪。
- 两人都坦白:被判刑2年
- 若其中一个坦白,另一个不坦白,坦白的一方被释放,而另一方被判3年。
- 两人都保持沉默:两人都因轻罪被判刑1年。
沉默 | 坦白 | |
沉默 | -1,-1 | -3,0 |
坦白 | 0,-3 | -2,-2 |
“正态形式的游戏”:矩阵表示法 “Normal-form games”: Matrix representation
正态形式的游戏 Normal-Form Games
有些复杂一些的问题没有办法用矩阵表达,比如造反问题。
--例2
共有100,000个人,每个人可以选择造反或者不造反,只有达到20,000个人才算造反成功。
如果造反达到人数要求,无论决策者选择什么收益都是1;
如果造反没有达到人数要求,则决策者选择造反的收益是-1;
如果造反没有达到人数要求,则决策者选择不造反的收益是0。
纯策略纳什均衡
--例3
两名罪犯被捕。审问者没有足够的证据定罪,但可以因为一次轻罪将他们定罪。
- 两人都坦白:被判刑2年
- 若其中一个坦白,另一个不坦白,坦白的一方被释放,而另一方被判3年。
- 两人都保持沉默:两人都因轻罪被判刑1年。
沉默 | 坦白 | |
沉默 | -1,-1 | -3,0 |
坦白 | 0,-3 | -2,-2 |
1.已知:犯罪分子1 -> 保持沉默
犯罪分子2:
(1) 保持沉默 -> (-1,-1):犯罪分子1判1年,犯罪分子2判1年
(2)坦白 -> (-3,0):犯罪分子1判3年,犯罪分子2判0年
对于犯罪分子2,坦白是最佳行动。
2.已知:犯罪分子1 -> 坦白
犯罪分子2:
(1) 保持沉默 -> (0,-3):犯罪分子1判0年,犯罪分子2判3年
(2)坦白 -> (-2,-2):犯罪分子1判2年,犯罪分子2判2年
对于犯罪分子2,坦白是最佳行动。
3.已知:犯罪分子2 -> 保持沉默
犯罪分子1:
(1) 保持沉默 -> (-1,-1):犯罪分子1判1年,犯罪分子2判1年
(2)坦白 -> (0,-3):犯罪分子1判0年,犯罪分子2判3年
对于犯罪分子1,坦白是最佳行动。
4.已知:犯罪分子2 -> 坦白
犯罪分子1:
(1) 保持沉默 -> (-3,0):犯罪分子1判3年,犯罪分子2判0年
(2)坦白 -> (-2,-2):犯罪分子1判2年,犯罪分子2判2年
对于犯罪分子1,坦白是最佳行动。
结果:纯粹纳什均衡:(坦白, 坦白)。
纯战略均衡总是纳什均衡(在纯战略中),而纳什均衡并不总是纯战略均衡;它可能是纯战略均衡,也可能是混合战略均衡。
混合纳什均衡
- 以安保设置检查关卡、攻击者制定策略攻击关卡的博弈问题引出混合策略。防止被预测
- 纯策略每次决策选择的是具体的动作,而混合策略每次决策选择的是概率分布。纯策略纳什均衡是混合策略纳什均衡的一种。
- 纯策略均衡:每个决策者都是根据已知其他决策者的选择从而做出决策,并且在已知其他决策者选择的前提下没有改变自己决策的动机。
- 混合策略均衡:每个决策者只可以调整自己的决策分布,而自己的效用则由其他决策者的决策分布决定。
计算2x2博弈中的纳什均衡
步骤1:计算至少有一个玩家采用纯策略的所有纳什均衡。
步骤2:计算两个玩家都在两种策略之间混合的所有纳什均衡。
在这种情况下,每个玩家必须在这两种策略之间持中立态度。
Dominant Strategies 主导策略:
迭代剔除劣势策略
--Example 10
金球游戏
每个玩家都有一套两个球,一个标有“分割”而另一个标有“偷取”。设有一个奖金池,例如说,$1000。
• 如果两位玩家都选择“分割”,他们每人得到奖金池的一半。
• 如果一名玩家选择“分割”而另一名玩家选择“偷取”,选择“偷取”的玩家将得到整个奖金池,而选择“分割”的玩家什么都得不到。
• 如果两位玩家都选择“偷取”,他们两人都什么都得不到。
“分割”并没有被“偷取”严格主导,所以不能移除“分割”!
情况1:至少有一位玩家采纳纯策略
1.A -> 分割:B-> 分割=>(500,500), B-> 偷取=>(0,1000) , (分割, 偷取)
2.A -> 偷取:B-> 分割=>(1000,0), B-> 偷取=>(0,0)
3.B -> 分割:A-> 分割=>(500,500), A-> 偷取=>(1000,0) , (分割, 偷取)
4.B -> 偷取:A-> 分割=>(0,1000), A-> 偷取=>(0,0)
• 行选择偷取 --> 列 = q*分割 + (1-q)偷取 对于任何 0 <= q <= 1 --> 行选择偷取是对于每个q的最佳回应 --> (偷取, q分割 + (1-q)偷取)
• 从列开始的相似推理 --> (偷取, 分割), (p分割 + (1-p)偷取, 偷取)
总结:(偷取, q分割 + (1-q)偷取) 对于任何 0 <= q <= 1
(p分割 + (1-p)*偷取, 偷取) 对于任何 0 <= p <= 1
情况2:两位玩家都在两种策略之间混合
假设行玩家以概率(p, 1-p)选择(分割, 偷取),而列玩家以概率(q, 1-q)选择,其中 0 < p, q < 1
• 行玩家持中立态度 --> 500q + 0(1-q) = 1000q + 0(1-q) --> q = 0
• 这与本案例的假设相矛盾!