无合作博弈
John Nash. 1951
译者注:本翻译的重点是讲述Nash均衡的存在性定理和应用;原论文中除了存在性定理之外还讲解了Nash均衡解的几何结构,但是结论的应用不够广泛,因此暂不进行翻译。
冯·纽曼和摩根斯坦已经在他们的论著《博弈理论和经济行为》中建立了一套关于双人零和博弈的非常诱人的理论。这本书也包含了关于n人合作博弈的理论;其建立在分析这些玩家形成的多重合作关系上。
我们的理论,反过来,建立在合作的缺失之上——我们假设每个人都会独立地行动,而且不会和其他人进行任何的交流和合作。
我们的理论的基本要素是均衡点(equilibrium point)。这个概念一般化了双人零和博弈的解的概念。它表明,双人博弈的均衡点的集合确实就是所有的“良策略”的集合。
在接下来的部分我们会定义均衡点,并证明一个有限非合作博弈总是至少存在一个均衡点。我们也会引入可解决性和强可解决性的概念,并且证明可解决性的问题的均衡点的集合存在某种几何结构。
我们还会给出一个简化的三人扑克游戏的例子作为我们的理论的应用实例。
Formal Definitions and Terminology(正式定义和术语)
在这一部分我们定义这篇论文中的若干基本概念,并且建立标准的术语和标记。重要的定义会在前面使用一个小标题进行标记。下面的“非合作”的性质是隐含的,不会直接出现。
有限博弈:
对于我们来说,一个n人博弈中包含n个玩家,或者说位置;每一个人都有一个相关的有限纯战略集;并且,每一个人都有唯一一个支付函数p_i,这个支付函数将所有可能的纯战略构成的n元组映射到实数。(译者注:用来描述博弈的每一种可能结果对于每个玩家的价值)当我们使用n元组这个名词的时候,我们的意思是说一个包含n个物体的集合,其中的每个都与不同的玩家关联。
混合战略,s_i:
玩家i的一个混合战略是指一个和为1的非负实参数集,并且这些实参数和他的纯战略一一对应。
如果我们记π_iα为第i个玩家的纯战略,那么就有:
s
i
=
∑
α
c
i
α
π
i
α
,
c
i
α
≥
0
s_i=\sum_\alpha c_{i\alpha}\pi_{i\alpha},c_{i\alpha}\geq 0
si=α∑ciαπiα,ciα≥0
∑ α c i α = 1 \sum _\alpha c_{i\alpha}=1 α∑ciα=1
我们把s_i看做是以π_iα为顶点的立方多面体,那么其可以看做是一个凸的实向量空间,这给了我们一种对战略进行线性混合的直观。
我们将会使用i,j,k代表玩家,α,β,γ代表玩家的纯战略,si,ti,ri代表玩家i的混合战略。
支付函数,p_i:
我们把在上面定义的支付函数p_i唯一地延拓到混合战略的n元组上;其中每个玩家的战略都是自己的战略的混合战略(n-linear)。我们用p_i来表示这个延拓,写作
p
i
(
s
1
,
s
2
,
.
.
.
,
s
n
)
p_i(s_1,s_2,...,s_n)
pi(s1,s2,...,sn)
我们接下来用\mathfrak{s}(latex写法见下)来表示一个混合战略的n元组,而且如果\mathfrak{s}=(s_1,s_2,…,s_n),那么我们就认为
p
i
(
s
)
=
p
i
(
s
1
,
s
2
,
.
.
.
,
s
n
)
p_i(\mathfrak{s})=p_i(s_1,s_2,...,s_n)
pi(s)=pi(s1,s2,...,sn)
这样的n元组\mathfrak{s}也可以看做包含混合战略的积向量空间中的一点。并且,所有的n元组构成的集合当然是一个凸的多面体。
为了方便起见我们引入替代记号:当\mathfrak{s}=(s_1,s_2,…,s_n)时,我们记:
(
s
;
t
i
)
=
(
s
1
,
s
2
,
.
.
.
,
s
i
−
1
,
t
i
,
s
i
+
1
,
.
.
.
,
s
n
)
(\mathfrak{s};\ t_i)=(s_1,s_2,...,s_{i-1},t_i,s_{i+1},...,s_n)
(s; ti)=(s1,s2,...,si−1,ti,si+1,...,sn)
同时,我们不妨记:
(
s
;
t
i
;
r
j
)
=
(
(
s
;
t
i
)
;
r
j
)
(\mathfrak{s};\ t_i;\ r_j)=((\mathfrak{s};\ t_i); r_j)
(s; ti; rj)=((s; ti);rj)
均衡点:
一个n元组\mathfrak{s}是一个均衡点,当且仅当对任意i:
p
i
(
s
)
=
max
a
l
l
r
i
[
p
i
(
s
;
r
i
)
]
p_i(\mathfrak{s})=\max_{all\ r_i}[p_i(\mathfrak{s};\ r_i)]
pi(s)=all rimax[pi(s; ri)]
因此,均衡点正是一个使得每个人在给定其他人的混合战略之后自己的混合战略都是最优的(没有动力调整自己的战略)的战略。
我们称一个混合战略s_i使用了一个纯战略π_iα,若在s_i的构造求和中π_iα的系数c_i>0(也就是说,参与了混合)。同时,若s_i使用了π_iα,则我们也称\mathfrak{s}使用了π_iα
由于p_i的线性延拓性,我们知道:混合战略ri仅在端点处取得最大值。也就是说,
max
a
l
l
r
i
[
p
i
(
s
;
r
i
)
]
=
max
α
[
p
i
(
s
;
π
i
α
)
]
\max_{all\ r_i}[p_i(\mathfrak{s};\ r_i)]=\max_{\alpha} [p_i(\mathfrak{s}; \pi_{i\alpha})]
all rimax[pi(s; ri)]=αmax[pi(s;πiα)]
我们定义
p
i
α
(
s
)
=
p
i
(
s
;
π
i
α
)
p_{i\alpha}(\mathfrak{s})=p_i(\mathfrak{s}; \pi_{i\alpha})
piα(s)=pi(s;πiα)
那么,我们得到了下面的简单的\mathfrak{s}为均衡点的必要条件:
p
i
(
s
)
=
max
α
p
i
α
(
s
)
p_i(\mathfrak{s})=\max_\alpha p_{i\alpha}(\mathfrak{s})
pi(s)=αmaxpiα(s)
也就是说,对于所有的i的支付小于最大值的纯战略,这些纯战略的参数都应该为0(即不应该使用)。因此,我们得到了均衡点的另一个充要条件:如果π_iα被\mathfrak{s}使用了,那么
p
i
α
(
s
)
=
max
α
p
i
α
(
s
)
p_{i\alpha}(\mathfrak{s})=\max_\alpha p_{i\alpha}(\mathfrak{s})
piα(s)=αmaxpiα(s)
根据上面对均衡点的断言,我们知道均衡点可以被表达为n对连续函数在向量空间(而且是闭集)中的等值点。
译者注:上面的讨论还是比较枯燥的,下面让我们放下这篇论文,暂时举一个例子:
示例1
考虑如图所示的一个二人零和博弈:
(1,2) | π_2α | π_2β |
---|---|---|
π_1α | (1,-1) | (0,0) |
π_1β | (0,0) | (2,-2) |
为了契合纳什使用的记号,我们的例子中不写出具体的内容。但是,为了生动起见,读者可以进行合理的想象,例如:
(A,B) | 藏右手 | 藏左手 |
---|---|---|
打B的左手 | (1,-1) | (0,0) |
打B的右手 | (0,0) | (2,-2) |
那么,我们知道,对于每一种可能的纯战略组合,都可以定义一个支付,根据纳什的记号,即:
p
1
(
π
1
α
,
π
2
α
)
=
1
,
p
2
(
π
1
α
,
π
2
α
)
=
−
1
p_1(\pi_{1\alpha},\pi_{2\alpha})=1,p_2(\pi_{1\alpha},\pi_{2\alpha})=-1
p1(π1α,π2α)=1,p2(π1α,π2α)=−1
p 1 ( π 1 α , π 2 β ) = 0 , p 2 ( π 1 α , π 2 β ) = 0 p_1(\pi_{1\alpha},\pi_{2\beta})=0,p_2(\pi_{1\alpha},\pi_{2\beta})=0 p1(π1α,π2β)=0,p2(π1α,π2β)=0
p 1 ( π 1 β , π 2 α ) = 0 , p 2 ( π 1 β , π 2 α ) = 1 p_1(\pi_{1\beta},\pi_{2\alpha})=0,p_2(\pi_{1\beta},\pi_{2\alpha})=1 p1(π1β,π2α)=0,p2(π1β,π2α)=1
p 1 ( π 1 β , π 2 β ) = 2 , p 2 ( π 1 β , π 2 β ) = − 2 p_1(\pi_{1\beta},\pi_{2\beta})=2,p_2(\pi_{1\beta},\pi_{2\beta})=-2 p1(π1β,π2β)=2,p2(π1β,π2β)=−2
(1) 如何证明一个战略是均衡点
下面我们考虑一个混合战略
s
=
(
2
3
π
1
α
+
1
3
π
1
β
,
2
3
π
2
α
+
1
3
π
2
β
)
\mathfrak{s}=(\frac{2}{3}π_{1α}+\frac{1}{3}π_{1β},\frac{2}{3}π_{2α}+\frac{1}{3}π_{2β})
s=(32π1α+31π1β,32π2α+31π2β)
直观上来看,这个策略是均衡点,下面我们来证明:
考虑
(
s
;
k
π
1
α
+
(
1
−
k
)
π
1
β
)
=
(
k
π
1
α
+
(
1
−
k
)
π
1
β
,
2
3
π
2
α
+
1
3
π
2
β
)
(\mathfrak{s}; k\pi_{1\alpha}+(1-k)\pi_{1\beta})=(k\pi_{1\alpha}+(1-k)\pi_{1\beta},\frac{2}{3}π_{2α}+\frac{1}{3}π_{2β})
(s;kπ1α+(1−k)π1β)=(kπ1α+(1−k)π1β,32π2α+31π2β)
则:
p
1
(
s
;
k
π
1
α
+
(
1
−
k
)
π
1
β
)
=
p
1
(
k
π
1
α
+
(
1
−
k
)
π
1
β
,
2
3
π
2
α
+
1
3
π
2
β
)
=
2
k
3
p
1
(
π
1
α
,
π
2
α
)
+
k
3
p
1
(
π
1
α
,
π
2
β
)
+
2
−
2
k
3
p
1
(
π
1
β
,
π
2
α
)
+
1
−
k
3
p
1
(
π
1
β
,
π
2
β
)
=
2
k
3
+
1
−
k
3
⋅
2
=
2
3
\begin{aligned} &\quad \quad p_1(\mathfrak{s}; k\pi_{1\alpha}+(1-k)\pi_{1\beta})\\ &=p_1(k\pi_{1\alpha}+(1-k)\pi_{1\beta},\frac{2}{3}π_{2α}+\frac{1}{3}π_{2β})\\ &=\frac{2k}{3}p_1(\pi_{1\alpha},\pi_{2\alpha})+\frac{k}{3}p_1(\pi_{1\alpha},\pi_{2\beta})+\\ &\frac{2-2k}{3}p_1(\pi_{1\beta},\pi_{2\alpha})+\frac{1-k}{3}p_1(\pi_{1\beta},\pi_{2\beta}) \\ &=\frac{2k}{3}+\frac{1-k}{3}·2=\frac{2}{3} \end{aligned}
p1(s;kπ1α+(1−k)π1β)=p1(kπ1α+(1−k)π1β,32π2α+31π2β)=32kp1(π1α,π2α)+3kp1(π1α,π2β)+32−2kp1(π1β,π2α)+31−kp1(π1β,π2β)=32k+31−k⋅2=32
特别的,k=2/3的时候p1也取得最大值。
同理验证
(
s
;
k
π
2
α
+
(
1
−
k
)
π
2
β
)
(\mathfrak{s}; k\pi_{2\alpha}+(1-k)\pi_{2\beta})
(s;kπ2α+(1−k)π2β)
在k=2/3时取得最大值即可证明该策略为均衡点。
(2)均衡点的必要条件
在上文中,纳什说明了,战略X被使用的必要条件是
p
i
α
(
s
)
=
max
α
p
i
α
(
s
)
p_{i\alpha}(\mathfrak{s})=\max_\alpha p_{i\alpha}(\mathfrak{s})
piα(s)=αmaxpiα(s)
我们看,在这个例子中,已知的均衡点确实满足这个条件:
在上例证明的均衡点
s
=
(
2
3
π
1
α
+
1
3
π
1
β
,
2
3
π
2
α
+
1
3
π
2
β
)
\mathfrak{s}=(\frac{2}{3}π_{1α}+\frac{1}{3}π_{1β},\frac{2}{3}π_{2α}+\frac{1}{3}π_{2β})
s=(32π1α+31π1β,32π2α+31π2β)
中,
p
1
α
(
s
)
=
p
1
β
(
s
)
=
2
3
p_{1\alpha}(\mathfrak{s})=p_{1\beta}(\mathfrak{s})=\frac{2}{3}
p1α(s)=p1β(s)=32
p 2 α ( s ) = p 2 β ( s ) = − 2 3 p_{2\alpha}(\mathfrak{s})=p_{2\beta}(\mathfrak{s})=-\frac{2}{3} p2α(s)=p2β(s)=−32
而且这四个战略也确实出现了。事实上,均衡点的必要条件为我们提供了一种求Nash均衡的方法:在纳什均衡点处,我们要满足给定其他人的选项,则这个人的均衡不变。也就是说,在所有使用的纯战略下,这个人的支付是相等的(都是最大值)。因此,据此,我们可以列出一些等式,再通过这个等式算出每个人的战略的参数。
例如,在这个例子中,假设第1个人的混合战略的参数为(p,1-p),第2个人的混合战略的参数为(q,1-q),那么,根据第1个人的混合战略在均衡点时使得p2在两个纯战略下的支付相等和第2个人的混合战略在均衡点时使得p1在两个纯战略下的支付相等,就有:
{
−
1
⋅
p
=
2
⋅
(
1
−
(
−
p
)
)
1
⋅
q
=
2
⋅
(
1
+
q
)
\left\{ \begin{aligned} -1·p&=2·(1-(-p)) \\ 1·q&=2·(1+q) \end{aligned} \right.
{−1⋅p1⋅q=2⋅(1−(−p))=2⋅(1+q)
因此,解得:
{
p
=
2
3
q
=
2
3
\left\{ \begin{aligned} p=\frac{2}{3}\\ q=\frac{2}{3} \end{aligned} \right.
⎩⎪⎨⎪⎧p=32q=32
(3) 未使用的战略:
假如我们现在把A和B的战略空间扩展一下:
(1,2) | π_2α | π_2β | π_2γ |
---|---|---|---|
π_1α | (1,-1) | (0,0) | (-100,-100) |
π_1β | (0,0) | (2,-2) | (-100,-100) |
π_1γ | (-100,-100) | (-100,-100) | (-100,-100) |
那么,刚才的均衡是不变的,还是均衡(只要在刚才的证明中加入π_1γ的考虑,但是直观来讲就是新增的这些策略太差了没人想选),但是刚才的均衡点中并没有出现π_1γ,也就是说,π_1γ没有被使用过。
好,现在我们用例子讨论了之前纳什主要定义的三个例子,下面我们回到原文,讨论均衡点的存在性。这也是纳什的这篇论文的灵魂所在。
均衡点的存在性
存在性定理的证明建立在角谷不动点定理(Kakutani’s generalized fixed point theorem)的基础上。我们现在构造一个n元组构成的战略空间上的满足若干性质的变换T,使得其不动点恰好就是这个博弈的均衡点。一旦这样的T构造完成,再证明其满足若干性质,我们就可以使用不动点定理知道其不动点必定存在,从而那是均衡点必定存在。
定理1:每个(战略)有限的博弈都存在一个均衡点。
证明:令\mathfrak{s}为一个混合战略的n元组,p_i(\mathfrak{s})为对应的第i个玩家的支付。p_{iα}(\mathfrak{s})为第i个玩家把自己的战略更改为纯战略π_{iα}后的支付。
那么,我们现在定义一个连续函数集:
φ
i
α
(
s
)
=
max
(
0
,
p
i
α
(
s
)
−
p
i
(
s
)
)
\varphi_{i\alpha}(\mathfrak{s})=\max(0,p_{i\alpha}(\mathfrak{s})-p_i(\mathfrak{s}))
φiα(s)=max(0,piα(s)−pi(s))
并且,对于每一个\mathfrak{s}中的战略s_i,我们定义其调整:
s
i
′
=
s
i
+
∑
α
φ
i
α
(
s
)
π
i
α
1
+
∑
α
φ
i
α
(
s
)
s_i'=\frac{s_i+\sum_{\alpha}\varphi_{i\alpha}(\mathfrak{s})\pi_{i\alpha}}{1+\sum_{\alpha}\varphi_{i\alpha}(\mathfrak{s})}
si′=1+∑αφiα(s)si+∑αφiα(s)πiα
我们记
s
′
=
(
s
1
′
,
s
2
′
,
.
.
.
,
s
n
′
)
\mathfrak{s}'=(s_1',s_2',...,s_n')
s′=(s1′,s2′,...,sn′)
我们现在证明变换
T
:
s
→
s
′
T:\mathfrak{s}\rightarrow \mathfrak{s}'
T:s→s′
的不动点是均衡点。
证明是显然的:如果一个点在变换T后不变,就说明
φ
i
α
(
s
)
=
0
⇒
p
i
α
(
s
)
≤
p
i
(
s
)
,
∀
i
,
∀
α
\varphi_{i\alpha}(\mathfrak{s})=0\Rightarrow p_{i\alpha}(\mathfrak{s})\leq p_i(\mathfrak{s}),\forall i,\forall\alpha
φiα(s)=0⇒piα(s)≤pi(s),∀i,∀α
根据上面的必要条件,我们知道\mathfrak{s}为一个均衡点。
因此,使用角谷定理(要求空间凸、闭,函数连续,但这些都已经说明),我们又知道变换T的不动点必定存在,从而均衡点必定存在。证毕!
博弈的对称性
一个在博弈上的自同构,或者说变换,是在它的纯战略集上进行的满足一定条件的置换。
如果某两个战略同属于一个玩家,那么在这个变换下,它们仍然属于同一个玩家,那么在纯战略集上的置换\phi可以诱导玩家集上的置换\psi。
每个纯战略的n元组因此可以被置换为另一个纯战略的n元组。我们称\chi为其诱导的n元组上的置换;\xi为纯战略的n元组,那么我们要求:
j
=
i
ψ
t
h
e
n
p
j
(
ξ
χ
)
=
p
i
(
ξ
)
j=i^{\psi}\quad \quad then\ \ p_j(\xi^\chi)=p_i(\xi)
j=iψthen pj(ξχ)=pi(ξ)
也就是说,置换\phi不改变同一个人的支付。
这就完成了我们对置换\phi和n元组上的置换\chi的定义。
那么,我们接下来定义对称n元组:
s
χ
=
s
,
∀
χ
\mathfrak{s}^\chi=\mathfrak{s},\quad \forall \chi
sχ=s,∀χ
定理2:每个(战略)有限的博弈都存在一个对称均衡点。
证明:首先我们考虑初始战略
s
i
0
=
∑
α
π
i
α
∑
α
1
,
s
0
=
(
s
10
,
s
20
,
.
.
.
,
s
n
0
)
s_{i0}=\frac{\sum_\alpha \pi_{i\alpha}}{\sum_\alpha1},\quad \mathfrak{s}_0=(s_{10},s_{20},...,s_{n0})
si0=∑α1∑απiα,s0=(s10,s20,...,sn0)
那么这当然是一个对称n元组。
又注意到如果s和t都是对称n元组,那么((s+t)/2)也是对称n元组,因此,在n元组构成的空间中,对称n元组构成的子空间仍然是凸空间。
现在考虑映射
T
:
s
→
s
′
T: \mathfrak{s}\rightarrow \mathfrak{s}'
T:s→s′
,则:假设\mathfrak{s}是对称n元组,就有:
s
′
=
T
s
=
T
s
χ
=
(
T
s
)
χ
=
s
′
χ
\mathfrak{s}'=T\mathfrak{s}=T\mathfrak{s}^\chi=(T\mathfrak{s})^\chi=\mathfrak{s}'^\chi
s′=Ts=Tsχ=(Ts)χ=s′χ
因此,在对称n元组空间中使用变换T的不动点定理,同样可以得到一个不动点。由此可见,必定存在一个对称的均衡点。