博弈论——1完全信息静态博弈

Game Theory

Chapter1 Static Games of Complete Information

static game

  1. players simultaneously choose actions

  2. receive payoffs – depend on the combination of actions

complete information

payoff function is common knowledge among all players

eg: Prisoners’ Dilemma

Prisoner2
MumFink
Prisioner1Mum-1,-1-9,0
Fink0,-9-6,-6

Prisoner 1: row player

Prisoner 2: column layer

tuple-normal form

一个策略式博弈由一个三元组tuple,即有序向量 Γ \Gamma Γ表示而成

包含三部分:

  1. players N = { 1 , 2 , 3 , . . . } N=\{1,2,3,...\} N={1,2,3,...}
  2. strategies S i S_i Si, S = S 1 × S 2 × . . . S n S=S_1\times{S_2}\times{...}S_n S=S1×S2×...Sn表示所有策略的集合(笛卡尔乘积)
  3. payoff u i ( s ) u_i(s) ui(s),是策略空间到实数 R R R的映射

Γ = ( N , ( S i ) i ∈ N , ( u i ) i ∈ N ) \Gamma=(N,(S_i)_{i\in{N}},(u_i)_{i\in{N}}) Γ=(N,(Si)iN,(ui)iN)

iterated elimination

  1. strictly dominated by:

    每一维度都改进

u i ( s i , s − i ) < u i ( s i ′ , s − i ) , ∀ s − i ∈ S − i u_i(s_i,s_{-i})<u_i(s^{'}_i,s_{-i}),\forall{s_-i}\in{S_{-i}} ui(si,si)<ui(si,si),siSi

rational player do not play strictly dominated strategies理性人不会选择被严格占优的策略

  1. dominant strategy

    弱占优

u i ( s i ∗ , s − i ) ≥ u i ( t i , s − i ) , ∀ i , t i ≠ s i ∗ , t i ∈ S i u_i(s_i^*,s_{-i})\geq{u_i(t_i,s_{-i})},\forall{i,t_i\neq{s_i^*},t_i\in{S_i}} ui(si,si)ui(ti,si),i,ti=si,tiSi

反复剔除严格劣策略:

eg: iterated elimination of strictly dominated strategies

Player2
LeftMiddle
Player1Up1,01,2
Down0,30,1

Up>Down

Player2
LeftMiddle
Player1Up1,01,2

剔除劣策略对剔除顺序敏感,可能会产生不同的结果

N = 1 , 2 , . . . , n N={1,2,...,n} N=1,2,...,n为一个有限集合,对每一个 i ∈ N i\in{N} iN,令 X i X_i Xi为任意集合,令 X : = × i ∈ N X i X:=\times_{i\in{N}}X_i X:=×iNXi,对每一个 i ∈ N i\in{N} iN,定义 X − i : = × j ≠ i X i X_{-i}:=\times_{j\neq{i}}X_i Xi:=×j=iXi,即出来集合 X i X_i Xi之外的所有集合 X j X_j Xj的笛卡尔乘积

笛卡尔乘积:

A × B = { ( x , y ) ∣ x ∈ A ∩ y ∈ B } A×B=\{(x,y)|x\in{A}{\cap}y\in{B}\} A×B={(x,y)xAyB}

A = { a , b } , B = { 0 , 1 , 2 } A=\{a,b\}, B=\{0,1,2\} A={a,b},B={0,1,2},则

A × B = { ( a , 0 ) , ( a , 1 ) , ( a , 2 ) , ( b , 0 ) , ( b , 1 ) , ( b , 2 ) } A{\times}B=\{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)\} A×B={(a,0),(a,1),(a,2),(b,0),(b,1),(b,2)}

B × A = { ( 0 , a ) , ( 0 , b ) , ( 1 , a ) , ( 1 , b ) , ( 2 , a ) , ( 2 , b ) } B{\times}A=\{(0, a), (0, b), (1, a), (1, b), (2, a), (2, b)\} B×A={(0,a),(0,b),(1,a),(1,b),(2,a),(2,b)}

best response

u i ( s i , s − i ) = m a x t i ∈ S i u i ( t i , s − i ) u_i(s_i,s_{-i})=max_{t_i\in{S_i}}u_i(t_i,s_{-i}) ui(si,si)=maxtiSiui(ti,si)

最佳应对就是该策略在其他策略之外所有其他人的策略下的收益为这个策略集中的最大值

Nash equilibrium

for each player is best response to the other players’ strategies
N E : u i ( s ∗ ) ≥ u i ( s i , s − i ∗ ) NE:u_i(s^*){\geq}u_i(s_i,s^*_{-i}) NE:ui(s)ui(si,si)

NE:

LCR
T0,44,05,3
M4,00,45,3
B3,53,56,6

L列0,4,3 选4;

C列4,0,3 选4;

R列5,5,6 选6;

T行4,0,3 选4;

M行0,4,3 选4;

B行 5,5,6 选6.

纳什均衡下,player 单方面偏离均衡点无利可图

eg:古诺模型

假设古诺模型中有两个参与人,即企业 1 1 1和企业 2 2 2,他们的战略是进行产量选择。用有序向量 Γ = ( N , ( S i ) i ∈ N , ( π i ) i ∈ N ) \Gamma=(N,(S_i)_{i\in{N}},(\pi_i)_{i\in{N}}) Γ=(N,(Si)iN,(πi)iN)表示古诺博弈。

其中,

  1. 参与人 N = { 1 , 2 } N=\{1,2\} N={1,2}
  2. 策略向量 S i S_i Si, S = S 1 × S 2 S=S_1\times{S_2} S=S1×S2表示所有策略的集合
    我们用 q ∈ [ 0 , ∞ ) q\in[0,\infty) q[0,)代表第 i i i个企业的产量, C i ( q i ) C_i(q_i) Ci(qi)代表成本函数, P = P ( q 1 + q 2 ) P=P(q_1+q_2) P=P(q1+q2)代表逆需求函数。第 i i i个企业的利润函数为:

π i ( q 1 , q 2 ) = q i P ( q 1 + q 2 ) − C i ( q i ) , i = 1 , 2 \pi_i(q_1,q_2)=q_iP(q_1+q_2)-C_i(q_i),i={1,2} πi(q1,q2)=qiP(q1+q2)Ci(qi),i=1,2

我们定义纳什均衡产量 ( q 1 ∗ , q 2 ∗ ) (q_1^*,q_2^*) (q1,q2)
q 1 ∗ = a r g m a x π 1 ( q 1 , q 2 ∗ ) = q 1 P ( q 1 + q 2 ∗ ) − C 1 ( q 1 ) q_1^*=argmax\pi_1(q_1,q_2^*)=q_1P(q_1+q_2^*)-C_1(q_1) q1=argmaxπ1(q1,q2)=q1P(q1+q2)C1(q1)

q 2 ∗ = a r g m a x π 2 ( q 1 ∗ , q 2 ) = q 2 P ( q 1 ∗ + q 2 ) − C 2 ( q 2 ) q_2^*=argmax\pi_2(q_1^*,q_2)=q_2P(q_1^*+q_2)-C_2(q_2) q2=argmaxπ2(q1,q2)=q2P(q1+q2)C2(q2)

为了使得每个企业互相都是对方的最佳应对,我们取利润函数的一阶导数并令其等于零:
∂ π 1 ∂ q 1 = P ( q 1 + q 2 ) + q 1 P ′ ( q 1 + q 2 ) − C 1 ′ ( q 1 ) = 0 \frac{\partial\pi_1}{\partial{q_1}}=P(q_1+q_2)+q_1P'(q_1+q_2)-C_1'(q_1)=0 q1π1=P(q1+q2)+q1P(q1+q2)C1(q1)=0

∂ π 2 ∂ q 2 = P ( q 1 + q 2 ) + q 2 P ′ ( q 1 + q 2 ) − C 2 ′ ( q 2 ) = 0 \frac{\partial\pi_2}{\partial{q_2}}=P(q_1+q_2)+q_2P'(q_1+q_2)-C_2'(q_2)=0 q2π2=P(q1+q2)+q2P(q1+q2)C2(q2)=0

为定义厂商的利润最大化产出与它认为竞争对手将生产的数量直接的关系,我们定义反应曲线:
q 1 ∗ = R 1 ( q 2 ) q_1^*=R_1(q_2) q1=R1(q2)

q 2 ∗ = R 2 ( q 1 ) q_2^*=R_2(q_1) q2=R2(q1)

将两个厂商的反应函数联立,其交点即双方的最佳应对,因此没有哪个厂商会有改变行为的冲动,此时各个厂商准确地假定了它的竞争者将生产的产量,并相应最大化了自己的利润。此时的那是均衡也成为古诺均衡。

斯塔克伯格模型

古诺模型中两个寡头厂商是同时做出产量决策的,且古诺模型属于静态博弈模型,因此如果其中任意一个厂商做出非均衡下的产量决策后,古诺模型并不会给出后续调整的动态变化,因此寡头垄断市场产量博弈模型需要构建一种动态的模型。假设两个与古诺模型一致的厂商中,有一方先进行选择,另一方由先决策的一方制定的产量而进行决策,且双方不仅有先后之分。

假设斯塔克伯格模型中有两个参与人,即企业 1 1 1和企业 2 2 2,他们的战略是进行产量选择。用有序向量 Γ = ( N , ( S i ) i ∈ N , ( π i ) i ∈ N ) \Gamma=(N,(S_i)_{i\in{N}},(\pi_i)_{i\in{N}}) Γ=(N,(Si)iN,(πi)iN)表示古诺博弈。

其中,

  1. 参与人 N = { 1 , 2 } N=\{1,2\} N={1,2}

  2. 策略向量 S i S_i Si, S = S 1 × S 2 S=S_1\times{S_2} S=S1×S2表示所有策略的集合

我们用 q ∈ [ 0 , ∞ ) q\in[0,\infty) q[0,)代表第 i i i个企业的产量, C i ( q i ) C_i(q_i) Ci(qi)代表成本函数, P = P ( q 1 + q 2 ) P=P(q_1+q_2) P=P(q1+q2)代表逆需求函数。第 i i i个企业的利润函数为:

π i ( q 1 , q 2 ) = q i P ( q 1 + q 2 ) − C i ( q i ) , i = 1 , 2 \pi_i(q_1,q_2)=q_iP(q_1+q_2)-C_i(q_i),i={1,2} πi(q1,q2)=qiP(q1+q2)Ci(qi),i=1,2

使用逆向归纳法,找到子博弈的完美纳什均衡,首先分析第二个阶段厂商2的决策,此时厂商2已经知道厂商1做出的决定,根据产量 q 1 q_1 q1我们能够通过古诺模型中的反应曲线计算出厂商2的产量:
q 2 ∗ = R 2 ( q 1 ) q_2^*=R_2(q_1) q2=R2(q1)
而与此同时,厂商1知道厂商2的决策思路,在选择 q 1 q_1 q1时就已知了 q 2 ∗ = R 2 ( q 1 ) q_2^*=R_2(q_1) q2=R2(q1),将此式直接代入其利润函数能够直接得到:
π ( q 1 , q 2 ∗ ) = q 1 P ( q 1 + q 2 ∗ ) − C 1 ( q 1 ) \pi(q_1,q_2^*)=q_1P(q_1+q_2^*)-C_1(q_1) π(q1,q2)=q1P(q1+q2)C1(q1)
此时二元利润函数实际上已经转化为了关于自身产量 q 1 q_1 q1的医院函数 π ( q 1 ) \pi(q_1) π(q1)

因此当厂商1考虑了厂商2的反应之后,厂商1自身的利润完全可以由自己控制,使得其自身利益最大化,我们有条件:
d π d q 1 = P ( q 1 + q 2 ∗ ) + q 1 P ′ ( q 1 + q 2 ∗ ) − C 1 ′ ( q 1 ) = 0 \frac{d\pi}{dq_1}=P(q_1+q_2^*)+q_1P'(q_1+q_2^*)-C_1'(q_1)=0 dq1dπ=P(q1+q2)+q1P(q1+q2)C1(q1)=0
通过一阶条件我们能够得到厂商1的最佳反应 q 1 ∗ q_1^* q1,因此也能够推导出对应厂商2在第二阶段的最佳反应 q 2 ∗ q_2* q2。这个运用逆向归纳法得到的策略向量也就是这个动态博弈的唯一的子博弈完美纳什均衡。

min max

安全水平:最大最小值

最坏收益:

m i n t − i ∈ S − i u i ( s i , t − i ) min_{t_{-i}\in{S_{-i}}}u_i(s_i,t_{-i}) mintiSiui(si,ti)
最大化最坏收益即安全水平,不低于最坏可能即安全情况
v i = m a x s i ∈ S i   m i n t − i ∈ S − i   u i ( s i , t − i ) v_i=max_{s_i\in{S_i}}\ min_{t_{-i}\in{S_{-i}}}\ u_i(s_i,t_{-i}) vi=maxsiSi mintiSi ui(si,ti)

u i ( s i ∗ , t − i ≥ v i ) , ∀ t − i ∈ S − i u_i(s_i^*,t_{-i}\geq{v_i}),{\forall}t_{-i}\in{S_{-i}} ui(si,tivi),tiSi

Mixed Strategies and Existence of Equilibrium

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值