纳什均衡和博弈论基础

dcjszhr

已于 2024-02-19 17:55:23 修改

阅读量109

点赞数

分类专栏：算法机制设计文章标签：学习算法

于 2023-08-20 19:57:50 首次发布

本文链接：https://blog.csdn.net/dcjszhr/article/details/132394759

版权

算法机制设计专栏收录该内容

6 篇文章 0 订阅

订阅专栏

博弈论

1.玩家：N= {1, ... , n}

2.行动：玩家可以采取某些行动来影响世界

3.收益：效用

4.偏好：对于结果的偏好（完备性、传递性）

5.策略互动：一般性、抽象性的框架（在博弈论中，策略互动是指个体之间的互动和决策过程。）

--例1

两名罪犯被捕。审问者没有足够的证据定罪，但可以因为一次轻罪将他们定罪。

两人都坦白：被判刑2年
若其中一个坦白，另一个不坦白，坦白的一方被释放，而另一方被判3年。
两人都保持沉默：两人都因轻罪被判刑1年。

	沉默	坦白
沉默	-1,-1	-3,0
坦白	0,-3	-2,-2

“正态形式的游戏”：矩阵表示法 “Normal-form games”: Matrix representation

正态形式的游戏 Normal-Form Games

有些复杂一些的问题没有办法用矩阵表达，比如造反问题。

--例2

共有100,000个人，每个人可以选择造反或者不造反，只有达到20,000个人才算造反成功。

如果造反达到人数要求，无论决策者选择什么收益都是1；

如果造反没有达到人数要求，则决策者选择造反的收益是-1；

如果造反没有达到人数要求，则决策者选择不造反的收益是0。

纯策略纳什均衡

--例3

两名罪犯被捕。审问者没有足够的证据定罪，但可以因为一次轻罪将他们定罪。

两人都坦白：被判刑2年
若其中一个坦白，另一个不坦白，坦白的一方被释放，而另一方被判3年。
两人都保持沉默：两人都因轻罪被判刑1年。

	沉默	坦白
沉默	-1,-1	-3,0
坦白	0,-3	-2,-2

1.已知：犯罪分子1 -> 保持沉默

犯罪分子2：

(1) 保持沉默 -> (-1,-1)：犯罪分子1判1年，犯罪分子2判1年

(2)坦白 -> (-3,0)：犯罪分子1判3年，犯罪分子2判0年

对于犯罪分子2，坦白是最佳行动。

2.已知：犯罪分子1 -> 坦白

犯罪分子2：

(1) 保持沉默 -> (0,-3)：犯罪分子1判0年，犯罪分子2判3年

(2)坦白 -> (-2,-2)：犯罪分子1判2年，犯罪分子2判2年

对于犯罪分子2，坦白是最佳行动。

3.已知：犯罪分子2 -> 保持沉默

犯罪分子1：

(1) 保持沉默 -> (-1,-1)：犯罪分子1判1年，犯罪分子2判1年

(2)坦白 -> (0,-3)：犯罪分子1判0年，犯罪分子2判3年

对于犯罪分子1，坦白是最佳行动。

4.已知：犯罪分子2 -> 坦白

犯罪分子1：

(1) 保持沉默 -> (-3,0)：犯罪分子1判3年，犯罪分子2判0年

(2)坦白 -> (-2,-2)：犯罪分子1判2年，犯罪分子2判2年

对于犯罪分子1，坦白是最佳行动。

结果：纯粹纳什均衡：(坦白, 坦白)。

纯战略均衡总是纳什均衡(在纯战略中)，而纳什均衡并不总是纯战略均衡；它可能是纯战略均衡，也可能是混合战略均衡。

混合纳什均衡

以安保设置检查关卡、攻击者制定策略攻击关卡的博弈问题引出混合策略。防止被预测
纯策略每次决策选择的是具体的动作，而混合策略每次决策选择的是概率分布。纯策略纳什均衡是混合策略纳什均衡的一种。
纯策略均衡：每个决策者都是根据已知其他决策者的选择从而做出决策，并且在已知其他决策者选择的前提下没有改变自己决策的动机。
混合策略均衡：每个决策者只可以调整自己的决策分布，而自己的效用则由其他决策者的决策分布决定。

计算2x2博弈中的纳什均衡

步骤1：计算至少有一个玩家采用纯策略的所有纳什均衡。

步骤2：计算两个玩家都在两种策略之间混合的所有纳什均衡。

在这种情况下，每个玩家必须在这两种策略之间持中立态度。

Dominant Strategies 主导策略：

迭代剔除劣势策略

--Example 10

金球游戏

每个玩家都有一套两个球，一个标有“分割”而另一个标有“偷取”。设有一个奖金池，例如说，$1000。

• 如果两位玩家都选择“分割”，他们每人得到奖金池的一半。

• 如果一名玩家选择“分割”而另一名玩家选择“偷取”，选择“偷取”的玩家将得到整个奖金池，而选择“分割”的玩家什么都得不到。

• 如果两位玩家都选择“偷取”，他们两人都什么都得不到。

“分割”并没有被“偷取”严格主导，所以不能移除“分割”！

情况1：至少有一位玩家采纳纯策略

1.A -> 分割：B-> 分割=>(500,500), B-> 偷取=>(0,1000) , (分割, 偷取)

2.A -> 偷取：B-> 分割=>(1000,0), B-> 偷取=>(0,0)

3.B -> 分割：A-> 分割=>(500,500), A-> 偷取=>(1000,0) , (分割, 偷取)

4.B -> 偷取：A-> 分割=>(0,1000), A-> 偷取=>(0,0)

• 行选择偷取 --> 列 = q*分割 + (1-q)偷取对于任何 0 <= q <= 1 --> 行选择偷取是对于每个q的最佳回应 --> (偷取, q分割 + (1-q)偷取)

• 从列开始的相似推理 --> (偷取, 分割), (p分割 + (1-p)偷取, 偷取)

总结：(偷取, q分割 + (1-q)偷取) 对于任何 0 <= q <= 1

(p分割 + (1-p)*偷取, 偷取) 对于任何 0 <= p <= 1

情况2：两位玩家都在两种策略之间混合

假设行玩家以概率(p, 1-p)选择(分割, 偷取)，而列玩家以概率(q, 1-q)选择，其中 0 < p, q < 1

• 行玩家持中立态度 --> 500q + 0(1-q) = 1000q + 0(1-q) --> q = 0

• 这与本案例的假设相矛盾！

dcjszhr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
纳什均衡和博弈论基础

• 行选择偷取 --> 列 = q*分割 + (1-q)偷取对于任何 0 (偷取, q分割 + (1-q)偷取)1.A -> 分割：B-> 分割=>(500,500), B-> 偷取=>(0,1000) , (分割, 偷取)3.B -> 分割：A-> 分割=>(500,500), A-> 偷取=>(1000,0) , (分割, 偷取)2.A -> 偷取：B-> 分割=>(1000,0), B-> 偷取=>(0,0)
复制链接

扫一扫

专栏目录