【博弈论基础与几大经典模型】古诺模型、斯塔克尔伯格模型Stackelberg Game、价格领导模型、Bertrand模型、Sweezy模型

网络安全k哥

已于 2024-12-10 15:50:38 修改

阅读量4.4k

点赞数 19

文章标签：人工智能 AI编程大模型深度学习机器学习

于 2024-06-26 21:49:50 首次发布

本文链接：https://blog.csdn.net/Spontaneous_0/article/details/139999343

版权

最近阅读了一篇paper中用到了Stackelberg Game建模，于是找了一些资料先学习以下该模型的理论知识，发现很多学科都是相关的，真是神奇的存在。

什么是博弈论

博弈论(Game
theory)又称为对策论，是理性个体之间战略对策的数学模型的研究。通过建立思维模型分析战略游戏中个体的行为，并且研究它们的优化策略。这里的个体，不仅可以指代个人，也可以指代企业等各种需要做出决策的个体。

以下笔记内容对应樊老师的视频课，小白都可以听懂的微观经济学理论，非常棒！

纳什均衡

1.所有博弈参与人的最佳对策（Best response）集合的交点，通常为纳什均衡点。
2. 达成纳什均衡后，在其他参与人不改变策略时，任一参与人均无法通过改变自身策略获得更高收益。
3. 在一个博弈中，可以存在一个以上的纳什均衡点，且不同的均衡点收益可以不同。
4.有时，参与人可以通过协商来达成更优（帕累托占优)的纳什均衡。
5．所有参与人选择同一种策略时可以达到纳什均衡的博弈被称为协调博弈，而在协调博弈中，人们有时可以通过协商来达成一个更优的纳什均衡。
6.复杂博弈中，可以通过猜测-验证的方法来寻找纳什均衡点。

寡头

特征：产品往往基本一致，也可以有差别；只有几家厂商（两家厂商叫双寡头、双头；多于两家厂商叫多头）；进入行业难；大量买方。
分类：
1）按厂商行动的方式分为：有勾结的（合作的）；一般研究独立行动的（竞争的，不合作的，这类是主流）
2）按产品特征分为：一般研究纯粹寡头（产品完全一样）；差别寡头
决策变量
产量Q 第一家产量 q 1 q_1 q1 第二家产品 q 2 q_2 q2
价格P
思维方式
知己知彼、换位思考、瞻前顾后（逆向归纳法）
厂商数量
双寡头又叫双头；多头

古诺模型

决策变量为Q，双（多头）势均力敌，目标：
产量：第一家企业产量 Q 1 Q_1 Q1，第二家企业产量 Q 2 Q_2 Q2，市场产量 Q = Q 1 + Q 2 Q=Q_1+Q_2
Q=Q1+Q2；
利润：第一家企业利润 π 1 \pi_1 π1，第二家企业利润 π 2 \pi_2 π2，市场利润 π = π 1 + π 2
\pi=\pi_1+\pi_2 π=π1+π2
假设条件：
（1）利润最大化；
（2）两家企业（可以扩展到 n n n家）；
（3）同质产品（即企业生产的产品一样）；
（4）生产成本为0（ T C = 0 TC=0 TC=0），故利润等于总收益 π = T R \pi=TR π=TR（成本可以为正数）；
（5）面临相同的线性市场需求曲线；
（6）所有厂家都知道上述假设，并能推测出市场销量、市场价格和利润，完全信息博弈；
（7）同时决策；同时博弈（静态博弈）；
（8）决策变量是产量。

例（一）：设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ， Q = Q 1 + Q 2 Q=Q_1+Q_2
Q=Q1+Q2，总成本 T C i = 0 TC_i=0 TCi=0，边际成本 M C i = 0 , i = 1 , 2 MC_i=0,i=1,2
MCi=0,i=1,2，求利润最大化下的 Q 1 Q_1 Q1， Q 2 Q_2 Q2， P P P， π 1 \pi_1 π1， π 2
\pi_2 π2。

第一家企业的利润
π 1 ( Q 1 ) = T R 1 − T C 1 = P Q 1 − 0 = [ a − b ( Q 1 + Q 2 ) ] Q 1 = a Q 1
− b Q 1 2 − b Q 1 Q 2 \pi_1(Q_1)=TR_1-TC_1\= PQ_1-0=[a-b(Q_1+Q_2)]Q_1\=
aQ_1-bQ_1^2-bQ_1Q_2
π1(Q1)=TR1−TC1=PQ1−0=[a−b(Q1+Q2)]Q1=aQ1−bQ12−bQ1Q2（等利润线）

利润最大化的一阶条件FOC： d π 1 d Q 1 = a − 2 b Q 1 − b Q 2 = 0 \frac{d
\pi_1}{dQ_1}=a-2bQ_1-bQ_2=0 dQ1dπ1=a−2bQ1−bQ2=0
推出：
Q 1 = a − b Q 2 2 b Q_1=\frac{a-bQ_2}{2b} Q1=2ba−bQ2(寡头1的反应函数，对应的曲线是反应曲线)

同理可得寡头2的反应函数为：
Q 2 = a − b Q 1 2 b Q_2=\frac{a-bQ_1}{2b} Q2=2ba−bQ1
![反应曲线](https://img-
blog.csdnimg.cn/3b752a6c6c4040b3b350841e8d9a13e5.png#pic_center)

反应曲线

在这里插入图片描述
细说反应曲线、等利润线：不同的利润 π \pi π对 Q Q Q求导等于0 ，得到相应许多点，这些点连成线得到反应曲线。故等利润线如下图所示，是一簇抛物线。

等利润线

例（二）：设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ， Q = Q 1 + Q 2 Q=Q_1+Q_2
Q=Q1+Q2，总成本 T C i = c Q i TC_i=cQ_i TCi=cQi，边际成本 M C i = c , i = 1 , 2
MC_i=c,i=1,2 MCi=c,i=1,2，求利润最大化。

第一家企业的利润
π 1 ( Q 1 ) = T R 1 − T C 1 = P Q 1 − c Q 1 = [ a − b ( Q 1 + Q 2 ) ] Q 1 − c
Q 1 = ( a − c ) Q 1 − b Q 1 2 − b Q 1 Q 2 \pi_1(Q_1)=TR_1-TC_1\=
PQ_1-cQ_1=[a-b(Q_1+Q_2)]Q_1-cQ_1\= (a-c)Q_1-bQ_1^2-bQ_1Q_2
π1(Q1)=TR1−TC1=PQ1−cQ1=[a−b(Q1+Q2)]Q1−cQ1=(a−c)Q1−bQ12−bQ1Q2（等利润线）

利润最大化的一阶条件FOC： d π 1 d Q 1 = ( a − c ) − 2 b Q 1 − b Q 2 = 0 \frac{d
\pi_1}{dQ_1}=(a-c)-2bQ_1-bQ_2=0 dQ1dπ1=(a−c)−2bQ1−bQ2=0
推出：
Q 1 = ( a − c ) − b Q 2 2 b Q_1=\frac{(a-c)-bQ_2}{2b}
Q1=2b(a−c)−bQ2(寡头1的反应函数，对应的曲线是反应曲线)

同理可得寡头2的反应函数为：
Q 2 = ( a − c ) − b Q 1 2 b Q_2=\frac{(a-c)-bQ_1}{2b} Q2=2b(a−c)−bQ1

进而推出：
在这里插入图片描述
例（三）： n n n家厂商，设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ， Q = Q 1 + Q 2 + . . .
+ Q n Q=Q_1+Q_2+…+Q_n Q=Q1+Q2+…+Qn，总成本 T C i = c Q i TC_i=cQ_i
TCi=cQi，边际成本 M C i = c , i = 1 , 2 , . . . , n MC_i=c,i=1,2,…,n
MCi=c,i=1,2,…,n，求利润最大化。

根据上面总结规律可以推出：
在这里插入图片描述

例（四-1）：两家企业组成卡特尔的情况:设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ，求利润最大化。
将两家企业看成一家
边际收益 M R = a − 2 b Q MR=a-2bQ MR=a−2bQ 。(来自结论：边际收益与反需求函数的关系，截距一样，斜率是反需求函数的2倍)
边际成本 M C i = c , i = 1 , 2 MC_i=c,i=1,2 MCi=c,i=1,2
利润最大化的一阶条件是边际收益=边际成本，所以 a − 2 b Q = c a-2bQ=c a−2bQ=c
可以推出 Q ∗ = a − c 2 b = 1 2 a − c b Q^*=\frac{a-c}{2b}=\frac{1}{2}\frac{a-c}{b}
Q∗=2ba−c=21ba−c< 2 3 a − c b \frac{2}{3}\frac{a-c}{b} 32ba−c

所以双寡头被垄断成一家企业时，产量降低了（价格会高）。

P ∗ = a − b ∗ 1 2 a − c b = a − 1 2 ( a − c ) = 1 2 ( a + c )
P^=a-b\frac{1}{2}\frac{a-c}{b}=a-\frac{1}{2}(a-c)=\frac{1}{2}(a+c)
P∗=a−b∗21ba−c=a−21(a−c)=21(a+c)

π ∗ = P ∗ ∗ Q ∗ − c ∗ Q ∗ = [ 1 2 ( a + c ) − c ] ∗ 1 2 a − c b = 1 4 ( a − c
) 2 b
\pi^*=P**Q^*-c*Q=[\frac{1}{2}(a+c)-c]\frac{1}{2}\frac{a-c}{b}=\frac{1}{4}\frac{(a-c)^2}{b}
π∗=P∗∗Q∗−c∗Q∗=[21(a+c)−c]∗21ba−c=41b(a−c)2> 2 9 ( a − c ) 2 b
\frac{2}{9}\frac{(a-c)^2}{b} 92b(a−c)2

所以双寡头被垄断成一家企业时，产量降低了，价格会高，而利润是增加了 。

例（四-2）：统一决策，两家企业组成卡特尔的情况:设市场反需求函数为 P = a − b Q P=a-bQ P=a−bQ，求利润最大化。

市场利润=两家企业总收益-两家企业总成本即，

π ( Q 1 , Q 2 ) = ( T R 1 + T R 2 ) − ( T C 1 + T C 2 ) = P ∗ ( Q 1 + Q 2 )
− ( c Q 1 + c Q 2 ) = [ a − b ( Q 1 + Q 2 ) ] ∗ ( Q 1 + Q 2 ) − ( c Q 1 +
c Q 2 ) = a Q 1 + a Q 2 − c Q 1 − c Q 2 − b Q 1 2 − 2 b Q 1 Q 2 − b Q 2 2
\pi(Q_1,Q_2)=(TR_1+TR_2)-(TC_1+TC_2)\
=P*(Q_1+Q_2)-(cQ_1+cQ2)\=[a-b(Q_1+Q_2)]*(Q_1+Q_2)-(cQ_1+cQ2)\=aQ_1+aQ_2-cQ_1-cQ_2-bQ_1^{2-2bQ_1Q_2-bQ_2}2
π(Q1,Q2)=(TR1+TR2)−(TC1+TC2)=P∗(Q1+Q2)−(cQ1+cQ2)=[a−b(Q1+Q2)]∗(Q1+Q2)−(cQ1+cQ2)=aQ1+aQ2−cQ1−cQ2−bQ12−2bQ1Q2−bQ22

推出 d π d Q 1 = a − c − 2 b Q 1 − 2 b Q 2 = 0
\frac{d\pi}{dQ_1}=a-c-2bQ_1-2bQ_2=0 dQ1dπ=a−c−2bQ1−2bQ2=0

d π d Q 2 = a − c − 2 b Q 2 − 2 b Q 1 = 0 \frac{d\pi}{dQ_2}=a-c-2bQ_2-2bQ_1=0
dQ2dπ=a−c−2bQ2−2bQ1=0
进而推出：
Q ∗ = a − c 2 b Q^=\frac{a-c}{2b} Q∗=2ba−c
P ∗ = a − b Q 1 ∗ = a − b a − c 2 b = a + c 2
P^*=a-bQ_1=a-b\frac{a-c}{2b}=\frac{a+c}{2} P∗=a−bQ1∗=a−b2ba−c=2a+c
π ∗ = ( P − c ) Q ∗ = a − b Q 1 ∗ = 1 4 ( a − c ) 2 b
\pi^*=(P-c)Q*=a-bQ_1^{*=\frac{1}{4}\frac{(a-c)}2}{b}
π∗=(P−c)Q∗=a−bQ1∗=41b(a−c)2> 2 9 ( a − c ) 2 b \frac{2}{9}\frac{(a-c)^2}{b}
92b(a−c)2

斯塔克尔伯格模型

产量领导模型
领导者-追随者，领导者有先动优势
企业1领导者没有反应函数，企业2追随者有反应函数

假设条件：与古诺模型的区别是第7个假设，Stackelberg假设企业1先决定，企业1的产量 Q 1 Q_1 Q1，企业2在得知 Q 1 Q_1
Q1后再决定 Q 2 Q_2 Q2(动态博弈)。推论：领导者的利润最大化问题应包括追随者的反应函数。

总结：斯塔克伯格博弈Stackelberg
Game，是一个两阶段的完全信息动态博弈，博弈的time是序贯的。钙模型的主要思想是领导者（leader）和追随者（followers）双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化，从而达到纳什均衡。在该博弈模型中，先作出决策的一方被称为leader，在leader之后，剩余的players根据leader的决策进行决策，被称为followers，然后leader再根据followers的决策对自己的决策进行调整，如此往复，直到达到纳什均衡。

例（一）：设市场反需求函数为 P = 100 − Q = 100 − （ Q 1 + Q 2 ） P=100-Q=100-（Q_1+Q_2）
P=100−Q=100−（Q1+Q2）， Q = Q 1 + Q 2 Q=Q_1+Q_2 Q=Q1+Q2，领导者厂商1 T C 1 = 1.2
Q 1 2 + 2 TC_1=1.2Q_1^2+2 TC1=1.2Q12+2，追随者厂商2 T C 2 = 1.5 Q 2 2 + 8
TC_2=1.5Q_2^2+8 TC2=1.5Q22+8，求利润最大化下的 Q 1 Q_1 Q1， Q 2 Q_2 Q2， P P P， π 1
\pi_1 π1， π 2 \pi_2 π2。

解：考虑追随者厂商2
π 2 = T R 2 − T C 2 = [ 100 − ( Q 1 + Q 2 ) ] Q 2 − ( 1.5 Q 2 2 + 8 ) = 100
Q 2 − Q 1 Q 2 − 2.5 Q 2 2 − 8
\pi_2=TR_2-TC_2\=[100-(Q_1+Q_2)]Q_2-(1.5Q_2^{2+8)\=100Q_2-Q_1Q_2-2.5Q_2}2-8
π2=TR2−TC2=[100−(Q1+Q2)]Q2−(1.5Q22+8)=100Q2−Q1Q2−2.5Q22−8

利润最大化的一阶条件FOC为

d π 2 d Q 2 = 100 − Q 1 − 5 Q 2 = 0 \frac{d\pi_2}{dQ_2}=100-Q_1-5Q_2=0
dQ2dπ2=100−Q1−5Q2=0

可以推出 Q 2 = 20 − 1 5 Q 1 Q_2=20-\frac{1}{5}Q_1 Q2=20−51Q1 (1)

把（1）代入厂商1的利润函数，得出

π 1 = T R 1 − T C 1 = [ 100 − ( Q 1 + Q 2 ) ] Q 1 − ( 1.2 Q 1 2 + 2 ) = 100
Q 1 − Q 1 Q 2 − 2.2 Q 1 2 − 2 = 80 Q 1 − 2 Q 1 2 − 2
\pi_1=TR_1-TC_1\=[100-(Q_1+Q_2)]Q_1-(1.2Q_1^{2+2)\=100Q_1-Q_1Q_2-2.2Q_1}2-2\=80Q_1-2Q_1^2-2
π1=TR1−TC1=[100−(Q1+Q2)]Q1−(1.2Q12+2)=100Q1−Q1Q2−2.2Q12−2=80Q1−2Q12−2

d π 1 d Q 1 = 80 − 4 Q 1 = 0 \frac{d\pi_1}{dQ_1}=80-4Q_1=0 dQ1dπ1=80−4Q1=0

可得 Q 1 = 20 Q_1=20 Q1=20进而可得 Q 2 = 16 Q_2=16 Q2=16

P = 100 − ( Q 1 + Q 2 ) = 64 P=100-(Q_1+Q_2)=64 P=100−(Q1+Q2)=64
所以领导者厂商1 T C 1 = 1.2 Q 1 2 + 2 = 482 TC_1=1.2Q_1^2+2=482 TC1=1.2Q12+2=482
追随者厂商2 T C 2 = 1.5 Q 2 2 + 8 = 392 TC_2=1.5Q_2^2+8=392 TC2=1.5Q22+8=392
T R 1 = P Q 1 = 64 ∗ 20 = 1280 TR_1=PQ_1=6420=1280 TR1=PQ1=64∗20=1280
T R 2 = P Q 2 = 64 ∗ 16 = 1024 TR_2=PQ_2=6416=1024 TR2=PQ2=64∗16=1024
可得：
厂商1的利润 π 1 = T R 1 − T C 1 = 1280 − 482 = 798 \pi_1=TR_1-TC_1=1280-482=798
π1=TR1−TC1=1280−482=798
厂商2的利润 π 2 = T R 2 − T C 2 = 1024 − 392 = 632 \pi_2=TR_2-TC_2=1024-392=632
π2=TR2−TC2=1024−392=632

价格领导模型

Leader厂商1按边际收益=边际成本（即 M R 1 = M C 1 MR_1=MC_1 MR1=MC1）选择 P P
P，Follower厂商2接受P，并按 P = M C 2 P=MC_2 P=MC2生产 Q 2 Q_2
Q2。Follower相应于完全竞争市场的价格接受者， P = M C 2 P=MC_2
P=MC2决定了Follower的供给曲线。把领导者厂商看成剩余市场的垄断者。

例：市场的需求函数 Q = 100 − 0.5 P Q=100-0.5P Q=100−0.5P，领导者厂商1： T C 1 = 1.2 Q 1 2 +
6 TC_1=1.2Q_1^2+6 TC1=1.2Q12+6，追随者厂商2： T C 2 = 1.5 Q 2 2 + 8
TC_2=1.5Q_2^2+8 TC2=1.5Q22+8，求利润最大化下的 Q 1 Q_1 Q1， Q 2 Q_2 Q2， P P P， π 1
\pi_1 π1， π 2 \pi_2 π2。

注：边际成本=总成本变动量/产量变动量。由定义得知边际成本等于总成本（TC）的变化量（△TC）除以对应的产量上的变化量（△Q），即：MC（Q)=△TC（Q）/△Q或MC（Q）=lim=△TC（Q）/△Q=dTC/dQ（其中△Q→0）。

解：考虑厂商2：

利润最大化原则为 M C 2 = P MC_2=P MC2=P，即 d T C 2 d Q 2 = 3 Q = P
\frac{dTC_2}{dQ_2}=3Q=P dQ2dTC2=3Q=P，得厂商2得供给函数 S 2 = Q 2 ( P ) = 1 3 P
S_2=Q_2§=\frac{1}{3}P S2=Q2§=31P

考虑厂商1：

剩余需求为 D 1 ( P ) = D ( P ) − S 2 ( P ) = ( 100 − 0.5 P ) − 1 3 P = 100 − 5 6 P
D_1§=D§-S_2§=(100-0.5P)-\frac{1}{3}P=100-\frac{5}{6}P
D1§=D§−S2§=(100−0.5P)−31P=100−65P，可以推出反需求函数 为 P = 120 − 6 5 Q 1
P=120-\frac{6}{5}Q_1 P=120−56Q1

由反需求函数得到边际收益 为 M R 1 = 120 − 12 5 Q 1 MR_1=120-\frac{12}{5}Q_1
MR1=120−512Q1，

由利润最大化的FOC 边际收益=边际成本 得 120 − 12 5 Q 1 = 2.4 Q 1
120-\frac{12}{5}Q_1=2.4Q_1 120−512Q1=2.4Q1，解得 Q 1 ∗ = 25 ， P ∗ = 90 ， Q 2 ∗
= 30 ， Q ∗ = Q 1 ∗ + Q 2 ∗ = 55 Q_1^*=25，P=90，Q_2^*=30，Q=Q_1^*+Q_2*=55
Q1∗=25，P∗=90，Q2∗=30，Q∗=Q1∗+Q2∗=55

可得：
厂商1的利润 π 1 = T R 1 − T C 1 = 1494 \pi_1=TR_1-TC_1=1494 π1=TR1−TC1=1494
厂商2的利润 π 2 = T R 2 − T C 2 = 1342 \pi_2=TR_2-TC_2=1342 π2=TR2−TC2=1342

注：厂商2有后动优势。