博弈论简述第一章完全信息静态博弈自用整理中

seasons_win

已于 2024-09-02 11:35:28 修改

阅读量909

点赞数 14

分类专栏：博弈论简述文章标签：学习

于 2024-09-01 18:05:00 首次发布

本文链接：https://blog.csdn.net/seasons_win/article/details/141784307

版权

博弈论简述专栏收录该内容

2 篇文章 0 订阅

订阅专栏

持续更新中

博弈论简述系列主要参考本校授课老师的PPT，相当于把老师的PPT简单过了一遍，加上自己的理解，但是个人觉得PPT内容系统结构不太行，后面有时间再慢慢调整。

没有什么技术性的内容，主要是简述。后面准备开一个系列，认真研读一下一些技术性的内容。

一、博弈的标准式和纳什均衡

1.1标准式三要素：参与人、策略、收益

总结：参与人（博弈方）通过在自己的策略集中选择合适的策略，从而得到对应的收益

数学表达：参与人i（假设一共有n个），策略集S_i，策略s_i，收益u_i(s) , s=(s_1,s_2,...,s_n)

该博弈可以表示为： G={N,S 1 ,S 2 , … ,S n ；u 1 ,u 2 ,…,u n }

1.2占优均衡

若某个策略组合是每个人的上策。

上策：该策略的收益比其它策略都高。

以囚徒困境为例，以下矩阵表示每个人的收益。左边的数字代表囚徒1的收益，右边为囚徒2的。

对于囚徒1来说，选择坦白时，要么得到-5，要么得到0，比不坦白时对应的-8和-1都要大，因此坦白对囚徒1来说是上策。以此类推，因此（-5，-5）是一个占优均衡。

注：占有均衡不一定存在，仅在少数博弈中有。例如赛马博弈就没有占优均衡。例子给出，具体自己琢磨。

1.3重复剔除严格劣策略

严格劣策略：A策略得到的收益总比B策略得到的少，A就是严格劣。参考囚徒困境中囚徒1，不坦白就是严格劣的。

重复剔除严格劣策略： 顾名思义，把严格劣的去掉，剩下的就是好的

注： 占优均衡存在，则 重复剔除严格劣策略一定存在；反之不然。因为重复剔除严格劣策略是由占优均衡的概念导出来的。占优均衡：选择法，选好的。重复剔除严格劣策略：剔除法，剔坏的。

常用方法：划线法：就是对应每个人的每个策略，把最好的收益画出来。

注意：不是总能划出最好的结果！！！因为该策略不一定存在

1.4纳什均衡NE

直观理解：该策略是每个人的最优策略。

数学表达： $u(s_1^*,s_2^*,...,s_{i-1}^*,s_i^*,s_{i+1}^*,...s_n^*)\geqslant u(s_1^*,s_2^*,...,s_{i-1}^*,s_i,s_{i+1}^*,...,s_n^*)$

上式区别在于s_i有无*号

若对于每个人i，策略 $(s_1^*,s_2^*,...,s_i^*,...,s_n^*)$ 都能保证上式成立，那么就称 $(s_1^*,s_2^*,...,s_i^*,...,s_n^*)$ 为该博弈的一个纳什均衡（Nash Equilibrium，NE），严格来说这里是纯策略纳什均衡（Pure-strategy Nash Equilibrium, PNE）

关系：

（1）占优均衡肯定是纳什均衡，但纳什均衡不一定是占优均衡

（2）划线法正是在可以用收益矩阵表示的博弈中寻找纳什均衡的方法

（3）

定理

定理1：如果博弈存在纳什均衡s*，那么重复剔除严格劣策略法一定不会将它消去。

证明：反证：假设s*是NE，但 $s_i^*$ 被重复剔除严格劣策略法剔除了，不妨设 $s_i^*$ 是s*中第一个被剔除的，那么在 $s_i^*$ 被剔除的后，一定存在策略 $s'_i$ 使得 $u(s'_i,s_{-i}^*)>u(s_i^*,s_{-i}^*)$ ，与NE定义矛盾。证毕。

定理2：如果重复剔除严格劣策略法排除了除 s*之外的所有策略组合，那么s*一定是该博弈惟一的纳什均衡。

证明：反证：类似上面的思路。

二、一些常见模型

2.1古诺模型

（1）双头垄断的古诺模型

问题：双寡头古诺模型是研究寡头垄断市场的经典模型。

厂商A和B生产同质产品。若A的产量为q1，B 的产量为q2，则市场总产量为Q＝q1十q2。设市场价格P与Q的关系为：P=P(Q）＝a - Q （当Q<a时，P=a-Q；当Q>a时，P=0）。若两厂商单位生产成本相同c1=c2=c，且无其他固定成本，两个厂商同时决定产量，求纳什均衡产量？

由一阶条件可得解，具体分析后面有时间慢慢整理。

注意：这里求出的均衡点，不一定是使得双方利益最高的点。

挖个坑：反应函数。

（2）多寡头的古诺模型：类似双头垄断的古诺模型，拓展至n个人即可。

2.2伯特兰德寡头模型，Bertrand

古诺模型：选择产量

伯特兰德模型：选择价格

伯特兰德悖论：对于同质产品，若两个厂商同时决定价格，那么均衡 价格等于边际 成本，厂商利润为零。这样的伯特兰德均衡与完全竞争市场下的均衡相同，这与寡头垄断相矛盾。

解开悖论的方法是引入产品的差异性。即不是完全可替代，即价格不同时，价格较高的不会完全销不出去。例如款式质量不同的书包等等。

问题：设价格分别为P 1 和P 2，d1，d2＞0为两厂商产品的替代系数。假设无固定成本，生产成本为c1和c2 。收益函数：

同理，由一阶条件可求得结果。

2.3霍特林(Hotelling)区位模型

（1）价格选择模型

问题：位于不同地点的两厂商A、B提供同质产品；成本假设为零；消费者均匀地分布在线性市场上，市场总距离为S千米，每1千米有一位消费者，每位消费者到A或者B去购买一件商品，消费者的运输成本为c元/千米。两个厂商的均衡价格如何？

设E点为向A、B购买的消费者分界线，x为A的购买者，y为B的购买者。A、B的定价分别为P1、P2，则由下式可以解出x、y：

再根据一阶条件可求解。

（2）区位选择模型

问题：在长度为1的线性市场上，有n个厂商销售同质产品，消费者均匀地分布在[0,1]区间内，密度函数等于1，产品价格为1，生产成本为0，厂商同时选择区位，最佳区位是什么？

不想码字了，直接看图，可以自己分析一下n=1,2,3及其以上人数的时候，是什么情况，加深理解：

2.4公共资源问题

（1）公共的悲剧问题

有n个农户放羊，公共草地面积有限，因此只能让不超过某一数量的羊群吃饱，若羊只的实际数量超过这个限度，则每只羊都无法吃饱，从而每只羊的产出(毛、皮、肉的总价值)就会减少，甚至只能勉强存活或要饿死。

（2）公共物品的私人供给

此时的效用：当第i个人的消费量增加时，效用函数值增大，增加幅度逐渐减小。

三、混合策略和纳什均衡的存在性

3.1混合策略纳什均衡

混合策略：简而言之，就是对于一种纯策略s_i对应着一个概率，即人i以一定概率选择策略s_i，这个概率就是混合策略。

因此只能得到期望收益，而不是精确的收益值。

混合策略纳什均衡：

双矩阵博弈的混合策略纳什均衡：

公式：其中A，B分别是收益矩阵，利用公式求出期望收益，再由一阶条件即可得到解。

举例1：（1/2，1/2）

举例2：A: 0.8 B: 0.2 C: 0.8 D: 0.2

3.2纳什均衡存在性

纳什定理：每个有限策略式博弈均具有混合策略均衡。

注：纯策略均衡是退化的混合策略均衡。

证明：思路是应用角谷不动点定理。

奇数定理：几乎所有的有限博弈都有奇数个纳什均衡。

纳什均衡存在性定理的推广：从有限到无限

定理：若每个参与人的纯策略空间Si是欧氏空间中的一个非空的有界闭凸集，支付函数ui(s) 连续且对si是拟凹的，那么该博弈存在一个纯策略纳什均衡。

定理：若每个参与人的纯策略空间Si 是欧氏空间中的一个非空的有界闭凸集，支付函数ui(s)连续，那么该博弈存在一个混合策略纳什均衡。

3.3多重纳什均衡

当博弈存在多个纳什均衡，那么在不同的情境下，会出现不同的均衡点。

（1）帕累托占优均衡：

给所有博弈方带来的利益，都大于其他所有纳什均衡会带来的利益

例（鹰鸽博弈）：有两个纯策略纳什均衡，（战争，战争）和（和平，和平），显然后者帕累托优于前者，所以，（和平，和平）是一个帕累托占优均衡。

（2）风险占优均衡：

这里的理解感觉还蛮重要的，所以解释一下。

在猎鹿博弈中，对于两个人来说，只要对方猎鹿的概率大于1/2，那选择猎鹿就更好了。但是，如果有9个人，甚至更多，假设每个人猎鹿概率为p，则要求 $p^8\geqslant 1/2$ ，p得大于0.9了，颇为严格。所以说猎兔风险更低。

（3）聚点均衡：

是纳什均衡。由于各方的文化和经验使他们相信这个点是大家都容易想到的、习惯选择的点。例如：城市博弈（城市分组相同）。聚点均衡确实反映了人们在多重纳什均衡选择中的某些规律性，但因为它们涉及的方面众多，对一般的博弈很难总结普遍规律，只能具体问题具体分析。

（4）相关均衡：

均衡选择机制。就是设计一种均衡选择机制，以解决多重纳什均衡选择问题。例如： 夫妻之争博弈中双方形成约定：“如果天气好一起去看足球赛，天气不好则一起看时装表演"。

（5）颤抖手均衡：

是纳什均衡，并且没有一个参与者的策略是弱劣策略

解释一下为啥第一个的（D,L）不是。因为对于参与者1来说，（D,L）与（U,L）是一样的，所以就算手抖了一下选了U，对他来说一样，所以不会进行修正。但是对于右边的(D,L)，一旦参与人1抖了一下选了U，收益只有8，比10小，则会有动机改变现状，修正到D。

四、二人零和博弈

零和博弈：就是博弈方之间利益始终对立，你赚我赔，我赚你赔，流动的资金就在咱俩之间流动，把咱俩看成一个系统，系统的变化为0。当然这里是以二人为例，实际上对于多人也是一样的道理。

对于甲乙两人，甲的收益矩阵为A，乙就是-A。

求解方法：

（1）最大最小法：

适用于零和博弈的纯策略纳什均衡（列局中人选择该行中数字最小的那一列。行局中人选择在列局中人所选择的这些每行的最小的数字中最大的数字所对应的那一行）

（2）扩展的最小最大方法（直线交叉方法）：

适用于零和博弈的混合策略纳什均衡

（3）线性规划解法：

可设一个期望收益，根据收益的min or max列出一个线性规划的方程组，进行求解。

seasons_win

关注

14
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
博弈论简述第一章完全信息静态博弈自用整理中

有n个农户放羊，公共草地面积有限，因此只能让不超过某一数量的羊群吃饱，若羊只的实际数量超过这个限度，则每只羊都无法吃饱，从而每只羊的产出(毛、皮、肉的总价值)就会减少，甚至只能勉强存活或要饿死。对于囚徒1来说，选择坦白时，要么得到-5，要么得到0，比不坦白时对应的-8和-1都要大，因此坦白对囚徒1来说是上策。博弈方之间利益始终对立，你赚我赔，我赚你赔，流动的资金就在咱俩之间流动，把咱俩看成一个系统，系统的变化为0。设E点为向A、B购买的消费者分界线，x为A的购买者，y为B的购买者。当Q>a时，P=0）。
复制链接

扫一扫