1 博弈
要素:
- 参与人:指一个博弈中的决策主体
- 信息:参与人在博弈过程中能了解和观察到的知识
知识:一个博弈问题所涉及的参与者的特征、行动及相应的效用、收益等
共同知识:所有参与人知道,所有参与人知道所有参与人知道… 理性是共同知识
- 行动:是各参与人在博弈过程中的备选方案
行动组合:选择的行动集合;
行动顺序:参与人谁先行动,谁后行动。
策略:每个参与人的行动选择方案。指参与人如何对其他参与人的行动作出反应的行动规则,它规定参与人在什么时候选择什么行动。
- 支付:在一个特定策略组合下,各参与人得到的确定的效用或期望效用
分类:
- 合作&非合作:协议
合作博弈:研究人们达成合作的条件及如何分配合作得到的收益,即收益分配问题;强调团体理性效率、公正、公平;达成协议并遵守
非合作博弈:研究人们在利益相互影响的局势中如何决策以使自己的收益最大,即策略选择问题;强调个人理性;未达成协议
- 静态&动态:策略
静态博弈:指参与人同时采取行动,或虽然行动顺序有先后,但后行动者也不知道先行动者采取的行动是什么;策略是一个决策或行动;策略式表述博弈
动态博弈:指双方的行动有先后顺序,并且后行动者在行动前有可能观测到其他先行动者的行动;策略是完整的行动方案;扩展式表述博弈
- 完全信息&不完全信息
完全信息博弈:指每个参与人都拥有所有其他参与人的特征、策略及支付函数等方面的准确信息;
不完全信息博弈:指至少存在一个参与人对其他参与人的偏好、支付函数、策略等方面的知识是不完全的。
- 零和&非零和
零和博弈:在所有场合下,所有参与人的支付之和恒为0
不为0的定值——定和博弈
- 还包括演化博弈、随机博弈、微分博弈、组合博弈、行为博弈
2 策略式表述
2.1 基本概念
要素:
- 博弈参与人: N N N——参与人的集合; i i i——参与人, i ∈ N i\in N i∈N
- 博弈参与人的策略集:
S
i
S_i
Si——参与人的策略集;
s
i
s_i
si——
S
i
S_i
Si中的一个元素;
S = ( s 1 , s 2 , … , s n ) S=(s_1,s_2,\dots,s_n) S=(s1,s2,…,sn)——博弈的策略组合:所有参与人的策略放在一起;
S − i = { ( s 1 , … , s i − 1 , s i + 1 , … , s n ) } S_{-i}=\{(s_1,\dots,s_{i-1},s_{i+1},\dots,s_n)\} S−i={(s1,…,si−1,si+1,…,sn)},则所有参与人的策略组合为 S = ( S i , S − i ) S=(S_i,S_{-i}) S=(Si,S−i) - 博弈参与人的支付函数: u i u_i ui——参与人 i i i的支付函数
囚徒困境:两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。两人支付矩阵如下:
犯人1/犯人2 | 坦白 | 抵赖 |
---|---|---|
坦白 | (-8,-8) | (0,-10) |
抵赖 | (-10,0) | (-1,-1) |
占优策略:指可以 无视他人选择,而给自己带来最大效用的策略
个人正确理性会造成最坏结局,降低集体福利;集体最优会侵害个人利益最大化
囚徒困境对于犯人1来说,无论犯人2选择坦白还是抵赖,最优策略都是坦白;对于犯人2也是一样。所有参与者的占优策略组合构成占优策略均衡:(坦白,坦白)
重复剔除严格 劣战略:找出某一参与人的严格劣策略,将其剔除,并不断重复,最终只留下唯一策略组合
2.2 纳什均衡
纳什均衡:对于博弈
G
=
(
N
,
S
i
,
u
i
)
,
i
∈
N
G=(N,S_i,u_i),i\in N
G=(N,Si,ui),i∈N,对于任意参与人
i
i
i,若存在一个策略组合
s
∗
=
(
s
i
∗
,
s
−
i
∗
)
s^*=(s_i^*,s_{-i}^*)
s∗=(si∗,s−i∗),满足
s
i
∗
∈
B
i
(
s
−
i
∗
)
s_i^*\in B_i(s_{-i}^*)
si∗∈Bi(s−i∗),则该策略组合
s
∗
s^*
s∗为纳什均衡。即纳什均衡中的策略集为参与人的最优反应
最优反应:对于博弈 G = ( N , S i , u i ) , i ∈ N G=(N,S_i,u_i),i\in N G=(N,Si,ui),i∈N,对于参与人 i i i,给定其他参与人策略组合 s − i s_{-i} s−i, i i i关于 s − i s_{-i} s−i的最优反应集是满足
最优反应的效用大于任何其他策略
的参与人 i i i的策略集,即: B i ( s − i ) = { s i ∈ S i ∣ u i ( s i , s − i ) ≥ u i ( s i ’ , s − i ) , ∀ s i ’ ∈ S i } B_i(s_{-i})=\{s_i\in S_i|u_i(s_i,s_{-i})\ge u_i(s_i^’,s_{-i}),\forall s_i^’\in S_i\} Bi(s−i)={si∈Si∣ui(si,s−i)≥ui(si’,s−i),∀si’∈Si}
混合策略纳什均衡:对于博弈 G , ∀ i ∈ N G,\forall i\in N G,∀i∈N,参与人 i i i的策略 σ i ∗ \sigma_i^* σi∗是关于其他参与人均衡策略组合 σ − i ∗ \sigma_{-i}^* σ−i∗的最优反应,即 σ ∗ = ( σ i ∗ , σ − i ∗ ) , σ i ∗ ∈ r i ( σ − i ∗ ) , ∀ i ∈ N \sigma^*=(\sigma_i^*,\sigma_{-i}^*),\sigma_i^*\in r_i(\sigma_{-i}^*),\forall i\in N σ∗=(σi∗,σ−i∗),σi∗∈ri(σ−i∗),∀i∈N,则策略组合 σ ∗ \sigma^* σ∗为混合策略纳什均衡
对于博弈 G = { S i , u i , i ∈ N } G=\{S_i,u_i,i\in N\} G={Si,ui,i∈N},称策略 s i ∈ S i s_i\in S_i si∈Si为参与人 i i i的纯策略
参与人 i i i的混合策略是定义在纯策略集上的一个概率分布
记参与人i的混合策略为 σ i \sigma_i σi,若 S i S_i Si中的元素个数为 k i k_i ki,则 i i i的一个混合策略可表示为 σ i = ( p i 1 , p i 2 , … , p i k i ) \sigma_i=(p_i^1,p_i^2,\dots,p_i^{k_i}) σi=(pi1,pi2,…,piki)
纳什定理:对于博弈 G G G,如果参与人数及每个参与人的纯策略个数是有限的,那么至少存在一个混合策略纳什均衡
定理:对于博弈 G G G,若 σ ∗ = ( σ i ∗ , σ − i ∗ ) \sigma^*=(\sigma^*_i,\sigma^*_{-i}) σ∗=(σi∗,σ−i∗)是纳什均衡,那么对于任何参与人 i i i来说,他的均衡策略 σ i ∗ \sigma^*_i σi∗的支撑中的任意一个元素 s i ’ s^’_i si’,也是关于 σ − i ∗ \sigma^*_{-i} σ−i∗的最优反应,即 u i ( s i ’ , σ − i ∗ ) = u i ( σ i ∗ , σ − i ∗ ) , ∀ s i ’ ∈ S u p p ( σ i ∗ ) u_i(s^’_i,\sigma^*_{-i})=u_i(\sigma^*_i,\sigma^*_{-i}),\forall s_i^’\in Supp(\sigma^*_i) ui(si’,σ−i∗)=ui(σi∗,σ−i∗),∀si’∈Supp(σi∗)
混合策略支撑: S u p p ( σ i ) Supp(\sigma_i) Supp(σi),参与人i的混合策略 σ i \sigma_i σi中以严格正概率选择的纯策略构成的集合
图解法:求出博弈双方关于对方不同混合策略下的最优反应函数,绘制于平面直角坐标系内,交点就是纳什均衡