Game Theory
Chapter1 Static Games of Complete Information
static game
-
players simultaneously choose actions
-
receive payoffs – depend on the combination of actions
complete information
payoff function is common knowledge among all players
eg: Prisoners’ Dilemma
Prisoner2 Mum Fink Prisioner1 Mum -1,-1 -9,0 Fink 0,-9 -6,-6 Prisoner 1: row player
Prisoner 2: column layer
tuple-normal form
一个策略式博弈由一个三元组tuple,即有序向量 Γ \Gamma Γ表示而成
包含三部分:
- players N = { 1 , 2 , 3 , . . . } N=\{1,2,3,...\} N={1,2,3,...}
- strategies S i S_i Si, S = S 1 × S 2 × . . . S n S=S_1\times{S_2}\times{...}S_n S=S1×S2×...Sn表示所有策略的集合(笛卡尔乘积)
- payoff u i ( s ) u_i(s) ui(s),是策略空间到实数 R R R的映射
Γ = ( N , ( S i ) i ∈ N , ( u i ) i ∈ N ) \Gamma=(N,(S_i)_{i\in{N}},(u_i)_{i\in{N}}) Γ=(N,(Si)i∈N,(ui)i∈N)
iterated elimination
-
strictly dominated by:
每一维度都改进
u i ( s i , s − i ) < u i ( s i ′ , s − i ) , ∀ s − i ∈ S − i u_i(s_i,s_{-i})<u_i(s^{'}_i,s_{-i}),\forall{s_-i}\in{S_{-i}} ui(si,s−i)<ui(si′,s−i),∀s−i∈S−i
rational player do not play strictly dominated strategies理性人不会选择被严格占优的策略
-
dominant strategy
弱占优
u i ( s i ∗ , s − i ) ≥ u i ( t i , s − i ) , ∀ i , t i ≠ s i ∗ , t i ∈ S i u_i(s_i^*,s_{-i})\geq{u_i(t_i,s_{-i})},\forall{i,t_i\neq{s_i^*},t_i\in{S_i}} ui(si∗,s−i)≥ui(ti,s−i),∀i,ti=si∗,ti∈Si
反复剔除严格劣策略:
eg: iterated elimination of strictly dominated strategies
Player2 Left Middle Player1 Up 1,0 1,2 Down 0,3 0,1 Up>Down
Player2 Left Middle Player1 Up 1,0 1,2
剔除劣策略对剔除顺序敏感,可能会产生不同的结果
令 N = 1 , 2 , . . . , n N={1,2,...,n} N=1,2,...,n为一个有限集合,对每一个 i ∈ N i\in{N} i∈N,令 X i X_i Xi为任意集合,令 X : = × i ∈ N X i X:=\times_{i\in{N}}X_i X:=×i∈NXi,对每一个 i ∈ N i\in{N} i∈N,定义 X − i : = × j ≠ i X i X_{-i}:=\times_{j\neq{i}}X_i X−i:=×j=iXi,即出来集合 X i X_i Xi之外的所有集合 X j X_j Xj的笛卡尔乘积
笛卡尔乘积:
A × B = { ( x , y ) ∣ x ∈ A ∩ y ∈ B } A×B=\{(x,y)|x\in{A}{\cap}y\in{B}\} A×B={(x,y)∣x∈A∩y∈B}
A = { a , b } , B = { 0 , 1 , 2 } A=\{a,b\}, B=\{0,1,2\} A={a,b},B={0,1,2},则
A × B = { ( a , 0 ) , ( a , 1 ) , ( a , 2 ) , ( b , 0 ) , ( b , 1 ) , ( b , 2 ) } A{\times}B=\{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)\} A×B={(a,0),(a,1),(a,2),(b,0),(b,1),(b,2)}
B × A = { ( 0 , a ) , ( 0 , b ) , ( 1 , a ) , ( 1 , b ) , ( 2 , a ) , ( 2 , b ) } B{\times}A=\{(0, a), (0, b), (1, a), (1, b), (2, a), (2, b)\} B×A={(0,a),(0,b),(1,a),(1,b),(2,a),(2,b)}
best response
u i ( s i , s − i ) = m a x t i ∈ S i u i ( t i , s − i ) u_i(s_i,s_{-i})=max_{t_i\in{S_i}}u_i(t_i,s_{-i}) ui(si,s−i)=maxti∈Siui(ti,s−i)
最佳应对就是该策略在其他策略之外所有其他人的策略下的收益为这个策略集中的最大值
Nash equilibrium
for each player is best response to the other players’ strategies
N
E
:
u
i
(
s
∗
)
≥
u
i
(
s
i
,
s
−
i
∗
)
NE:u_i(s^*){\geq}u_i(s_i,s^*_{-i})
NE:ui(s∗)≥ui(si,s−i∗)
NE:
L C R T 0,4 4,0 5,3 M 4,0 0,4 5,3 B 3,5 3,5 6,6 L列0,4,3 选4;
C列4,0,3 选4;
R列5,5,6 选6;
T行4,0,3 选4;
M行0,4,3 选4;
B行 5,5,6 选6.
纳什均衡下,player 单方面偏离均衡点无利可图
eg:古诺模型
假设古诺模型中有两个参与人,即企业 1 1 1和企业 2 2 2,他们的战略是进行产量选择。用有序向量 Γ = ( N , ( S i ) i ∈ N , ( π i ) i ∈ N ) \Gamma=(N,(S_i)_{i\in{N}},(\pi_i)_{i\in{N}}) Γ=(N,(Si)i∈N,(πi)i∈N)表示古诺博弈。
其中,
- 参与人 N = { 1 , 2 } N=\{1,2\} N={1,2}
- 策略向量 S i S_i Si, S = S 1 × S 2 S=S_1\times{S_2} S=S1×S2表示所有策略的集合
我们用 q ∈ [ 0 , ∞ ) q\in[0,\infty) q∈[0,∞)代表第 i i i个企业的产量, C i ( q i ) C_i(q_i) Ci(qi)代表成本函数, P = P ( q 1 + q 2 ) P=P(q_1+q_2) P=P(q1+q2)代表逆需求函数。第 i i i个企业的利润函数为:π i ( q 1 , q 2 ) = q i P ( q 1 + q 2 ) − C i ( q i ) , i = 1 , 2 \pi_i(q_1,q_2)=q_iP(q_1+q_2)-C_i(q_i),i={1,2} πi(q1,q2)=qiP(q1+q2)−Ci(qi),i=1,2
我们定义纳什均衡产量 ( q 1 ∗ , q 2 ∗ ) (q_1^*,q_2^*) (q1∗,q2∗):
q 1 ∗ = a r g m a x π 1 ( q 1 , q 2 ∗ ) = q 1 P ( q 1 + q 2 ∗ ) − C 1 ( q 1 ) q_1^*=argmax\pi_1(q_1,q_2^*)=q_1P(q_1+q_2^*)-C_1(q_1) q1∗=argmaxπ1(q1,q2∗)=q1P(q1+q2∗)−C1(q1)q 2 ∗ = a r g m a x π 2 ( q 1 ∗ , q 2 ) = q 2 P ( q 1 ∗ + q 2 ) − C 2 ( q 2 ) q_2^*=argmax\pi_2(q_1^*,q_2)=q_2P(q_1^*+q_2)-C_2(q_2) q2∗=argmaxπ2(q1∗,q2)=q2P(q1∗+q2)−C2(q2)
为了使得每个企业互相都是对方的最佳应对,我们取利润函数的一阶导数并令其等于零:
∂ π 1 ∂ q 1 = P ( q 1 + q 2 ) + q 1 P ′ ( q 1 + q 2 ) − C 1 ′ ( q 1 ) = 0 \frac{\partial\pi_1}{\partial{q_1}}=P(q_1+q_2)+q_1P'(q_1+q_2)-C_1'(q_1)=0 ∂q1∂π1=P(q1+q2)+q1P′(q1+q2)−C1′(q1)=0∂ π 2 ∂ q 2 = P ( q 1 + q 2 ) + q 2 P ′ ( q 1 + q 2 ) − C 2 ′ ( q 2 ) = 0 \frac{\partial\pi_2}{\partial{q_2}}=P(q_1+q_2)+q_2P'(q_1+q_2)-C_2'(q_2)=0 ∂q2∂π2=P(q1+q2)+q2P′(q1+q2)−C2′(q2)=0
为定义厂商的利润最大化产出与它认为竞争对手将生产的数量直接的关系,我们定义反应曲线:
q 1 ∗ = R 1 ( q 2 ) q_1^*=R_1(q_2) q1∗=R1(q2)q 2 ∗ = R 2 ( q 1 ) q_2^*=R_2(q_1) q2∗=R2(q1)
将两个厂商的反应函数联立,其交点即双方的最佳应对,因此没有哪个厂商会有改变行为的冲动,此时各个厂商准确地假定了它的竞争者将生产的产量,并相应最大化了自己的利润。此时的那是均衡也成为古诺均衡。
斯塔克伯格模型
古诺模型中两个寡头厂商是同时做出产量决策的,且古诺模型属于静态博弈模型,因此如果其中任意一个厂商做出非均衡下的产量决策后,古诺模型并不会给出后续调整的动态变化,因此寡头垄断市场产量博弈模型需要构建一种动态的模型。假设两个与古诺模型一致的厂商中,有一方先进行选择,另一方由先决策的一方制定的产量而进行决策,且双方不仅有先后之分。
假设斯塔克伯格模型中有两个参与人,即企业 1 1 1和企业 2 2 2,他们的战略是进行产量选择。用有序向量 Γ = ( N , ( S i ) i ∈ N , ( π i ) i ∈ N ) \Gamma=(N,(S_i)_{i\in{N}},(\pi_i)_{i\in{N}}) Γ=(N,(Si)i∈N,(πi)i∈N)表示古诺博弈。
其中,
参与人 N = { 1 , 2 } N=\{1,2\} N={1,2}
策略向量 S i S_i Si, S = S 1 × S 2 S=S_1\times{S_2} S=S1×S2表示所有策略的集合
我们用 q ∈ [ 0 , ∞ ) q\in[0,\infty) q∈[0,∞)代表第 i i i个企业的产量, C i ( q i ) C_i(q_i) Ci(qi)代表成本函数, P = P ( q 1 + q 2 ) P=P(q_1+q_2) P=P(q1+q2)代表逆需求函数。第 i i i个企业的利润函数为:
π i ( q 1 , q 2 ) = q i P ( q 1 + q 2 ) − C i ( q i ) , i = 1 , 2 \pi_i(q_1,q_2)=q_iP(q_1+q_2)-C_i(q_i),i={1,2} πi(q1,q2)=qiP(q1+q2)−Ci(qi),i=1,2
使用逆向归纳法,找到子博弈的完美纳什均衡,首先分析第二个阶段厂商2的决策,此时厂商2已经知道厂商1做出的决定,根据产量 q 1 q_1 q1我们能够通过古诺模型中的反应曲线计算出厂商2的产量:
q 2 ∗ = R 2 ( q 1 ) q_2^*=R_2(q_1) q2∗=R2(q1)
而与此同时,厂商1知道厂商2的决策思路,在选择 q 1 q_1 q1时就已知了 q 2 ∗ = R 2 ( q 1 ) q_2^*=R_2(q_1) q2∗=R2(q1),将此式直接代入其利润函数能够直接得到:
π ( q 1 , q 2 ∗ ) = q 1 P ( q 1 + q 2 ∗ ) − C 1 ( q 1 ) \pi(q_1,q_2^*)=q_1P(q_1+q_2^*)-C_1(q_1) π(q1,q2∗)=q1P(q1+q2∗)−C1(q1)
此时二元利润函数实际上已经转化为了关于自身产量 q 1 q_1 q1的医院函数 π ( q 1 ) \pi(q_1) π(q1)。因此当厂商1考虑了厂商2的反应之后,厂商1自身的利润完全可以由自己控制,使得其自身利益最大化,我们有条件:
d π d q 1 = P ( q 1 + q 2 ∗ ) + q 1 P ′ ( q 1 + q 2 ∗ ) − C 1 ′ ( q 1 ) = 0 \frac{d\pi}{dq_1}=P(q_1+q_2^*)+q_1P'(q_1+q_2^*)-C_1'(q_1)=0 dq1dπ=P(q1+q2∗)+q1P′(q1+q2∗)−C1′(q1)=0
通过一阶条件我们能够得到厂商1的最佳反应 q 1 ∗ q_1^* q1∗,因此也能够推导出对应厂商2在第二阶段的最佳反应 q 2 ∗ q_2* q2∗。这个运用逆向归纳法得到的策略向量也就是这个动态博弈的唯一的子博弈完美纳什均衡。
min max
安全水平:最大最小值
最坏收益:
m
i
n
t
−
i
∈
S
−
i
u
i
(
s
i
,
t
−
i
)
min_{t_{-i}\in{S_{-i}}}u_i(s_i,t_{-i})
mint−i∈S−iui(si,t−i)
最大化最坏收益即安全水平,不低于最坏可能即安全情况
v
i
=
m
a
x
s
i
∈
S
i
m
i
n
t
−
i
∈
S
−
i
u
i
(
s
i
,
t
−
i
)
v_i=max_{s_i\in{S_i}}\ min_{t_{-i}\in{S_{-i}}}\ u_i(s_i,t_{-i})
vi=maxsi∈Si mint−i∈S−i ui(si,t−i)
u i ( s i ∗ , t − i ≥ v i ) , ∀ t − i ∈ S − i u_i(s_i^*,t_{-i}\geq{v_i}),{\forall}t_{-i}\in{S_{-i}} ui(si∗,t−i≥vi),∀t−i∈S−i