【博弈论】【第三章】完全信息动态博弈(二):无限次重复博弈

完全信息动态博弈(二):无限次重复博弈

无限次重复博弈

给定一博弈G,无限次重复进行G博弈的过程称为G的“无限次重复博弈”,记为 G ( ∞ , δ ) G( \infty,\delta) G(δ),其中是各参与人得益共同的贴现系数 δ \delta δ。并且,对任意的 t t t,在进行第 t t t阶段(第 t t t次重复)博弈之前,所有参与人都能看到前 t − 1 t-1 t1阶段博弈的结果。各参与人在 G ( ∞ , δ ) G( \infty,\delta) G(δ)中的“得益”等于各阶段得益的现在值。

扳机战略:

σ i ( 1 ) = s i , n c c σ i ( t ) = { s i , n c c  if  σ j ( x ) = s j , n c c , j ≠ i ; x = 1 , ⋯   , t − 1 ; t = 2 , 3 , ⋯ s i ,  纳什   否 则 即 如 此  \begin{aligned} & \sigma_i(1)=s_{i, n c c} \\ & \sigma_i(t)= \begin{cases}s_{i, n c c} & \text { if } \sigma_j(x)=s_{j, n c c}, j \neq i ; \\ & x=1, \cdots, t-1 ; t=2,3, \cdots \\ s_{i, \text { 纳什 }} & \text { 否 则 即 如 此 }\end{cases} \end{aligned} σi(1)=si,nccσi(t)= si,nccsi, 纳什  if σj(x)=sj,ncc,j=i;x=1,,t1;t=2,3,      
π i ,纳什  < π i , n c c < π i ,背叛  \pi_{i \text {,纳什 }}<\pi_{i, n c c}<\pi_{i \text {,背叛 }} πi,纳什 <πi,ncc<πi,背叛 

当我们在解决实际问题时,要考虑的是参与人在前几期都选择合作之后,突然哪一期开始选择不合作,然后计算总收益。而合作的前几期总是有限次数,其收益值总是一个常数,所以我们可以简化为从第一期就开始选择不合作,这样达到的效果是一样的,同时还简化了计算模型。

企业i坚持合作的收益(每一期的收益都是合作收益,然后折现到现在):
P D V i , n c c = π i , n c c + δ π i , n c c + ⋯ = 1 1 − δ π i , n c c P D V_{i, n c c}=\pi_{i, n c c}+\delta \pi_{i, n c c}+\cdots=\frac{1}{1-\delta} \pi_{i, n c c} PDVi,ncc=πi,ncc+δπi,ncc+=1δ1πi,ncc
企业i在某期发生背叛并随后招致报复,则他的收益(此处假设从第一期开始就不合作,所以第一期他会获得比较高的背叛收益,但是随后对方发现他没有合作,就转而变为纳什均衡策略,所以第二期企业i也被迫恢复到纳什均衡,因为选别的的话收益比纳什均衡还要差)(并且此处的假设是,对方一旦发现你不合作,以后就永远不会选择合作策略了,也就是以后的收益全部都是纳什均衡收益):
P D V i ,  背扳  = π i ,  背扳  + δ π i ,  级什  + δ 2 π i ,纳什  + ⋯ = π i ,  背叛  + δ 1 − δ π i ,纽什  P D V_{i, \text { 背扳 }}=\pi_{i, \text { 背扳 }}+\delta \pi_{i, \text { 级什 }}+\delta^2 \pi_{i \text {,纳什 }}+\cdots=\pi_{i, \text { 背叛 }}+\frac{\delta}{1-\delta} \pi_{i \text {,纽什 }} PDVi, 背扳 =πi, 背扳 +δπi, 级什 +δ2πi,纳什 +=πi, 背叛 +1δδπi,纽什 
所以企业i合作与否取决于上面两个收益哪个更大:
P D V i , n c c ≥ P D V i ,  背哩  P D V_{i, n c c} \geq P D V_{i, \text { 背哩 }} PDVi,nccPDVi, 背哩 
δ ≥ π i ,  背叛  − π i , n c c π i ,  背叛  − π i , ,纳什  \delta \geq \frac{\pi_{i, \text { 背叛 }}-\pi_{i, n c c}}{\pi_{i, \text { 背叛 }}-\pi_{i, \text {,纳什 }}} δπi, 背叛 πi,,纳什 πi, 背叛 πi,ncc
δ = 1 / ( 1 + r ) \delta=1 /(1+r) δ=1/(1+r)
1 r ≥ π i ,  背叛  − π i , n c c π i , n c c − π i ,  纳什  \frac{1}{r} \geq \frac{\pi_{i, \text { 背叛 }}-\pi_{i, n c c}}{\pi_{i, n c c}-\pi_{i, \text { 纳什 }}} r1πi,nccπi, 纳什 πi, 背叛 πi,ncc

【例题】无限次重复囚徒困境
在这里插入图片描述

【解】
通过划线法可以得到完全信息静态博弈的纳什均衡是(1,1)。

如果从第一阶段递推去算那种博弈战略收益最大化,那么将会是及其繁琐的。所以我们换一个思路,直接根据扳机战略提出一个看起来收益不错的战略,看看这个战略的实现条件是什么,如果很好实现,那么就用这个战略。

所以我们提出以下的战略:
扳机战略( trigger strategy):在第一阶段采用 R R R(因为R的收益对双方是最好的),在第t阶段,如果前 t − 1 t-1 t1阶段的结果都是 ( R , R ) (R,R) (RR),则继续采用 R R R,否则采用 L L L
那么上面这个战略构想能否实现?
假设第一阶段参与人1采用该扳机战略:

  • 参与人2若从第一阶段就开始偏离,即第一阶段采用L将得到5,但以后就引起参与人1的报复,这样自己也只能选L,每一阶段的得益将永远只有1,计算总得益,得:
    π = 5 + 1 × δ + 1 × δ 2 + ⋯ = 5 + δ 1 − δ \pi=5+1 \times \delta+1 \times \delta^2+\cdots=5+\frac{\delta}{1-\delta} π=5+1×δ+1×δ2+=5+1δδ
  • 若在第一阶段采用R,则在每阶段他将获得益4,总得益为:
    π = 4 + 4 δ + 4 δ 2 + ⋯ = 4 1 − δ \pi=4+4 \delta+4 \delta^2+\cdots=\frac{4}{1-\delta} π=4+4δ+4δ2+=1δ4
    因此,当 4 1 − δ ≥ 5 + δ 1 − δ \frac{4}{1-\delta} \geq 5+\frac{\delta}{1-\delta} 1δ45+1δδ,即 δ > 1 / 4 \delta>1/4 δ>1/4时,参与人2会采用 R R R,否则采用 L L L

【例题】无限次重复古诺模型
设市场出清价格 P = P ( Q ) = 8 − Q P=P(Q)=8-Q P=P(Q)=8Q,总产量为 Q = q 1 + q 2 Q=q_1+q_2 Q=q1+q2,两厂商都无固定成本,边际成本都为2。
静态博弈的 N E ( 2 , 2 ) NE(2,2) NE(22) u 1 = u 2 = 4 u_1= u_2=4 u1=u2=4 U = 8 U =8 U=8
垄断产量 q m = 3 , T 1 = T 2 = 4.5 , U = 9 q_m= 3,T_1= T_2=4.5,U = 9 qm=3T1=T2=4.5U=9

【解】
当我们在静态信息博弈中计算古诺模型的时候,时只考虑一期的收益,这时每个企业都只考虑自己的当期收益最大化,这时不可能选择合作策略,但是我们考虑无限次重复博弈的时候,之前的当期收益最大化的战略就是不稳定的,因为自己当期收益最大化必然带来对方的收益极小,在长期博弈中市场不可能允许这种战略的存在。所以这时候就可以考虑合作战略的可能性了。

首先我们来提出一个基于扳机战略的较好的战略:
扳机战略:在第一阶段生产垄断产量的一半1.5(合作产略是3,所以每个企业单独的产量就是1.5);在第 t t t阶段,如果前 t − 1 t-1 t1阶段的结果都是 ( 1.5 , 1.5 ) (1.5,1.5) (1.51.5),则继续生产1.5,否则生产古诺产量 q c = 2 q_c= 2 qc=2

假设厂商1已经采用该扳机战略:

  • 若厂商2也采用该扳机战略,则每期得益4.5,无限次重复博弈得益为:
    4.5 × ( 1 + δ + δ 2 + ⋯   ) = 4.5 1 − δ 4.5 \times\left(1+\delta+\delta^2+\cdots\right)=\frac{4.5}{1-\delta} 4.5×(1+δ+δ2+)=1δ4.5
  • 如果厂商2偏离上述扳机战略,则他在第一阶段所选产量应该是在给定厂商1产量为1.5的情况下,最大化自己的利润产量,即满足:
    max ⁡ q 2 [ ( 8 − 1.5 − q 2 ) × q 2 − 2 q 2 ] = max ⁡ q 2 [ ( 4.5 − q 2 ) × q 2 ] \max _{q_2}\left[\left(\mathbf{8}-1.5-\boldsymbol{q}_2\right) \times \boldsymbol{q}_2-2 \boldsymbol{q}_2\right]=\max _{q_2}\left[\left(\mathbf{4 . 5}-\boldsymbol{q}_2\right) \times \boldsymbol{q}_2\right] q2max[(81.5q2)×q22q2]=q2max[(4.5q2)×q2]
    解之得: q 2 = 2.25 q_2=2.25 q2=2.25,此时利润为5.0625
    但从第二阶段开始,厂商1将报复性地永远采用古诺产量2,这样厂商2也被迫永远采用古诺产量,从此得利润4。故无限次重复博弈第一阶段偏离的情况下得益的现在值为:
    5.0625 + 4 ( δ + δ 2 + ⋯   ) = 5.0625 + 4 δ 1 − δ 5.0625+4\left(\delta+\delta^2+\cdots\right)=5.0625+\frac{4 \delta}{1-\delta} 5.0625+4(δ+δ2+)=5.0625+1δ4δ
    4.5 1 − δ ≥ 5.0625 + 4 δ 1 − δ \frac{4.5}{1-\delta} \geq 5.0625+\frac{4 \delta}{1-\delta} 1δ4.55.0625+1δ4δ,即 δ > = 9 / 17 \delta>=9/17 δ>=9/17时,上述扳机战略是厂商2对1得同样扳机战略得最佳反应,否则偏离是他的最佳反应。
    所以可看出:由于有长期利润的制约,双方会发现合作还是有好处的。

胡萝卜加大棒战略:

在第一阶段生产垄断产量的一半 q m / 2 q_m/2 qm/2;在第 t t t阶段,如果前 t − 1 t-1 t1阶段的结果是 ( q m / 2 , q m / 2 ) (q_m/2,q_m/2) (qm/2,qm/2) ( x , x ) (x,x) (x,x),则继续生产 q m / 2 q_m/2 qm/2,否则生产 x x x
x x x:最大惩罚产量(大于古诺均衡产量)
“两期战略”( two - phase strategy )

  • 惩罚期(punishment phase),企业i生产 x x x
  • 合作期(collusive phase),企业 i i i生产 q m / 2 q_m/2 qm/2
    (如果企业1发现企业2背叛了合作战略,就会采取惩罚战略,生产远远大于纳什均衡产量得商品,使得企业2得收益变得极少,这样的惩罚会一直持续到企业2被迫采取与企业1一样的策略,这时候企业1直到企业2回心转意了,然后才会停止惩罚)(最终的目的就是希望对方与自己合作,与扳机策略一样)

还是上面那个古诺模型例题,如果采用胡萝卜加大棒战略会是什么结果?
前面部分都是一样的:
假设厂商1已经采用该扳机战略:

  • 若厂商2也采用该扳机战略,则每期得益4.5,无限次重复博弈得益为:
    4.5 × ( 1 + δ + δ 2 + ⋯   ) = 4.5 1 − δ 4.5 \times\left(1+\delta+\delta^2+\cdots\right)=\frac{4.5}{1-\delta} 4.5×(1+δ+δ2+)=1δ4.5
  • 如果厂商2偏离上述扳机战略,则他在第一阶段所选产量应该是在给定厂商1产量为1.5的情况下,最大化自己的利润产量,即满足:
    max ⁡ q 2 [ ( 8 − 1.5 − q 2 ) × q 2 − 2 q 2 ] = max ⁡ q 2 [ ( 4.5 − q 2 ) × q 2 ] \max _{q_2}\left[\left(\mathbf{8}-1.5-\boldsymbol{q}_2\right) \times \boldsymbol{q}_2-2 \boldsymbol{q}_2\right]=\max _{q_2}\left[\left(\mathbf{4 . 5}-\boldsymbol{q}_2\right) \times \boldsymbol{q}_2\right] q2max[(81.5q2)×q22q2]=q2max[(4.5q2)×q2]
    解之得: q 2 = 2.25 q_2=2.25 q2=2.25,此时利润为5.0625
    第二阶段厂商1将采用 x x x加以惩罚,这时厂商2第二阶段也必须采用 x x x以避免厂商1第三阶段进行惩罚。这样厂商2第二阶段的得益为:
    π x = ( 6 − 2 x ) x = 6 x − 2 x 2 \pi_x=(6-2 x) x=6 x-2 x^2 πx=(62x)x=6x2x2
    假设此后何足总重新开始并继续下去。当:
    δ ( 4.5 − π x ) = δ ( 4.5 − 6 x + 2 x 2 ) ≥ 5.0625 − 4.5 = 0.5625 \delta\left(4.5-\pi_x\right)=\delta\left(4.5-6 x+2 x^2\right) \geq 5.0625-4.5=0.5625 δ(4.5πx)=δ(4.56x+2x2)5.06254.5=0.5625
    δ ≥ 0.5625 4.5 − 6 x + 2 x 2 \delta \geq \frac{0.5625}{4.5-6 x+2 x^2} δ4.56x+2x20.5625时,厂商2在第一阶段不会选择偏离,否则会偏离。

【例题】(考试题)
两寡头进行古诺产量博弈,如果市场需求 P = 150 − Q P=150 -Q P=150Q,边际成本 c = 30 c= 30 c=30,且没有固定成本,贴现因子为0.9。如果市场竞争形势长期稳定,问两个厂商能否维持垄断产量?
(1)古诺竞争时的纳什均衡求解如下:
设厂商1的产量为 q 1 q_1 q1,厂商2的产量为 q 2 q_2 q2,则得益函数为:
{ u 1 = ( 150 − q 1 − q 2 ) q 1 − 30 q 1 = 120 q 1 − q 1 q 2 − q 1 2 u 2 = ( 150 − q 1 − q 2 ) q 2 − 30 q 2 = 120 q 2 − q 1 q 2 − q 2 2 \left\{\begin{array}{l} u 1=(150-q 1-q 2) q 1-30 q 1=120 q 1-q 1 q 2-q_1^2 \\ u 2=(150-q 1-q 2) q 2-30 q 2=120 q 2-q 1 q 2-q_2^2 \end{array}\right. {u1=(150q1q2)q130q1=120q1q1q2q12u2=(150q1q2)q230q2=120q2q1q2q22
由一阶条件得反应函数为:
联立反应函数解得纳什均衡为: q 1 = q 2 = 40 q_1=q_2=40 q1=q2=40 u 1 = u 2 = 1600 u_1=u_2=1600 u1=u2=1600
(2)垄断时的最优解求解如下:
垄断总收益函数为: U = ( 150 − Q ) Q − 30 Q U=(150-Q)Q-30Q U=(150Q)Q30Q
由一阶条件得最优垄断总产量为: Q = 60 Q=60 Q=60,两个厂商的产量为 q 1 = q 2 = 30 q_1=q_2=30 q1=q2=30
垄断总利润为 U = 3600 U=3600 U=3600,各个厂商的利润为 u 1 = u 2 = 1800 u_1=u_2=1800 u1=u2=1800

有了上面这些数据,就可以拟定出一个扳机战略:
扳机战略:在第一阶段生产垄断产量的一半30(合作产略是60,所以每个企业单独的产量就是30);在第 t t t阶段,如果前 t − 1 t-1 t1阶段的结果都是 ( 30 , 30 ) (30,30) (3030),则继续生产30,否则生产古诺产量 q c = 40 q_c= 40 qc=40
(3)设贴现因子为 i i i
①若厂商都维持垄断产量,则长期收益为
Π 1 = 1800 + 1800 i + 1800 i 2 + ⋯ = 1800 1 − i \Pi 1=1800+1800 \mathrm{i}+1800 i^2+\cdots=\frac{1800}{1-i} Π1=1800+1800i+1800i2+=1i1800
②若厂商在第一阶段背叛,则其背叛后的收益计算如下:
在对方生成垄断产量30的前提下,自己的得益函数为:
π = ( 150 − q − 30 ) q − 30 q = 90 q − q 2 \pi=(150-q-30) q-30 q=90 q-q^2 π=(150q30)q30q=90qq2
解得最有产量 q = 45 q=45 q=45,最优利润为 u = 2025 u=2025 u=2025
由此得背叛参与人长期收益为:
Π 2 = 2025 + 1600 i + 1600 i 2 + ⋯ = 2025 + 1600 i 1 − i \Pi 2=2025+1600 \mathrm{i}+1600 i^2+\cdots=2025+\frac{1600 i}{1-i} Π2=2025+1600i+1600i2+=2025+1i1600i
③若两个厂商维持垄断产量,则满足的条件为: Π 1 > Π 2 \Pi 1>\Pi 2 Π1>Π2即:
1800 1 − i > 2025 + 1600 i 1 − i \frac{1800}{1-i}>2025+\frac{1600 i}{1-i} 1i1800>2025+1i1600i
i > 0.529 i>0.529 i>0.529.由于现在贴现因子为 0.9 0.9 0.9,远大于 0.529 0.529 0.529。所以如果市场有长期稳定性,两个厂商能维持垄断产量。

【例题】
考察 n n n个企业的 c o u r n o t cournot cournot模型,假设需求函数为: P ( Q ) = a − Q P(Q)= a- Q P(Q)=aQ
其中: Q = q 1 + q 2 + . . + q n , q i ( i = 1 , 2... , n ) Q=q_1+q_2 +..+q_n,q_i(i= 1,2...,n) Q=q1+q2+..+qnqi(i=1,2...,n)为企业 i i i的产量,不变单位生产成本为 c c c
➢证明:若这个阶段博弈无限重复,则企业能够运用触发战略维持垄断产出的贴现系数 δ \delta δ满足:
δ ≥ ( n + 1 ) 4 − 4 n ( n + 1 ) 2 ( n + 1 ) 4 − 16 n 2 \delta \geq \frac{(n+1)^4-4 n(n+1)^2}{(n+1)^4-16 n^2} δ(n+1)416n2(n+1)44n(n+1)2
【解】
第一步计算:所有n个企业同时决策的纳什均衡产量,以及对应的利润水平(n个企业就是n个方程,n个反应函数,联立)
第二步计算:n个企业组成联合体的情况下的总产量,以及每个企业的产量,还有此时的利润

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兜兜里有好多糖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值