公共物品博弈阅读总结
1. 博弈论
博弈论的三个最基本的要素:
- 博弈参与者(players) : 在一个博弈过程中需要有两位或者两位以上的参与制来博弈。
- 参与者所采取的策略(strategies):每个个体所采取的博弈策略可以是单一的(只采取合作策略或者背叛策略),也可以是多种策略并用(混合策略,可以一会是背叛,一会是合作策略)。
- 收益(payoff) : 博弈参与者获得采取的策略所带来的收益。
2. 博弈的常见模型
2.1 囚徒困境模型
2.1.1 背景
两个共谋犯,称为囚犯 A 和囚犯 B,同时被捕入 狱,并被分开审讯。若是这两个囚犯都选择沉默,不坦白,法官便无法找到确 切的证据,因此给两个囚犯判处一年的刑罚。若其中的一方选择坦白并揭发对 方的罪行,而另一方选择沉默,法官会出于揭发者提供的证据而将揭发者释放, 沉默的一方则会由于不配合警方的调查而被判三年的刑罚。若两个共谋犯都选 择坦白,互相指证、揭发,那双方都会由于配合调查获得两年的刑罚。
由此我们得到的罪犯A和B的收益矩阵为(合作使用字母C表示,背叛使用字母D表示):
不坦白© | 坦白(D) | |
---|---|---|
不坦白© | (1,1) | (3,0) |
坦白(D) | (0,3) | (2,2) |
在囚徒困境模型中,不坦白视为合作策略©,坦白视为背叛策略(D),则囚徒困境博弈的收益矩阵如下所示:
C | D | |
---|---|---|
C | (R,R) | (S,T) |
D | (T,S) | (P,P) |
在此表格中,收益参数满足条件 T>R>P>S同时 2R>(T+S)。
T:表示背叛的诱惑。即背叛对方所带来的收益。
R:表示相互合作的奖励。
S:表示被骗的代价。
P:相互背叛的惩罚。
为什么要保证 2R>(T+S) 呢?
这种情况是保证,在多次的博弈中,避免罪犯A和B相互利用,使得两次所获得的收益比两次合作还要高,那么博弈就陷入了相互利用的循环中。这样,就会导致合作的泯灭,不利于合作行为的产生。因此,需要保证2R>T+S。
显然,囚犯双方由于无法交流,互不信任,最后会相互揭发,背叛策略使他们的最优策略。
2.2 雪堆博弈
2.2.1 背景
司机 A 和司机 B 分别被困在雪堆的对面,若 想通过只能铲除雪堆。他们必须做出选择。第一种选择是下车开始铲雪,铲雪的成本为 c ;第二种选择是留在车内,不铲雪。如果两个司机都选择铲雪,那么 每个人都能回家,回家的好处为 b ,获得的收益为b-c/2 。如果司机 A 和司 机 B 都不铲雪,那么他们就不能回家并且获得的收益为0 。如果只有其中一 人铲雪,另一人不铲雪,那么不铲雪的人的收益为b ,而铲雪的人得到的收益为b-c 。
由此我们得到的司机A和B的收益矩阵为:
铲雪© | 不铲雪(D) | |
---|---|---|
铲雪© | (b-c/2,b-c/2) | (b-c,b) |
不铲雪© | (b,b-c) | (0,0) |
可以看出,一个人的最优策略取决于对象策略的反策略。如果对象背叛,自己的最优策略是合作;如果对象合作,自己的最优策略是背叛。
总之一句话,雪堆博弈的最优策略即为对方的反策略。
2.3 公共物品博弈(Pubic Goods Game,重中之重,我的研究方向)
2.3.1 背景
假设群体中有 N 个个体,在群体中有个集资池, 所有个体须同时决定是否向公共池进行投资。他们有两个选择,一个是投资(称为合作者),另一个是不投资(称为背叛者)。若个体选择合作,则需要付出合作的代价 c (cost)–> 这里通常是1 , 而背叛者无需支付任何代价。不论他们的选择如何,最 后所有的资金都将乘以一个增强因子 r ( r > 1),然后平均地分给群体中的每个个体。
π c = r c N c N − c (2-1) \pi_c=\frac{rcN_c}{N}-c \tag{2-1} πc=NrcNc−c(2-1)
π D = r c N c N (2-2) \pi_D=\frac{rcN_c}{N} \tag{2-2} πD=NrcNc(2-2)
公式(2-1)为合作者的收益;公式(2-2)为背叛者的收益。N_c是群体中选择合作策略的人数。N为群体总人数。
可以看出,与合作策略相比,背叛策略会带来的收益显然更具有诱惑性。但是如果每个人都选择合作策略,则每个个体会获得最大的收益。在这种情况下,个体就陷入了两年的境地,到时候自私选择不劳而获(“搭便车”),还是选择一起合作达到最大利益。
因此,我们研究公共物品博弈的目的就是,通过何种机制,促进个体的合作,以期整个种群的合作水平达到最大。
3. 演化网络博弈
个体数量N趋于无穷时的博弈参与者处于同一个复杂网络上,在每一时间步长的演化中,按照一定的规则选取其中的一部分博弈参与者并以一定的概率匹配然后进行博弈。博弈参与者所采用的策略按照一定的规则进行更新,并且所有参与者的策略更新规则相同。
4. 演化网络中演化博弈的研究方法
-
研究网络结构对于博弈在演化过程中的动力学演化的作用和影响
这个就是看看,将博弈的种群放入到不同的网络模型上面,会对合作有什么帮助。一些常见的网络模型:规则的方格,不规则的方格,随机网络,BA网络,无标度网络等等。这些网络模型在学到之后会进行记录。
-
探究和发现一些对于博弈 过程中的合作行为有促进作用的动力学
这个说白的就是,通过那些机制来促进种群中合作的发生。比如后面将会介绍的三种促进合作发送的机制:
- 付出代价获取其他个体策略信息的已知信息合作者(IC)
- 基于声誉机制和选择声誉模仿对象
- 基于声誉激励(惩罚)机制
这三种机制将会在策略更新和选择模仿对象上面促进合作的发送。
-
博弈动力学和网络结构的共演化的研究
这里我暂时没有什么想法。唯一能想到的就是,将入强化学习算法。例如,Q-learning算法。
5.策略更新规则
- 同步更新: 在每个时间步长内,所有的个体都同时进行一次策略更新。(这种的规则不常用)
- 异步更新: 在每个时间步长内,所以参与博弈的个体以一个随机循序进行策略更新。
5.1 费米函数(Fermi)
P ( S x → S y ) = 1 1 + e π x − π y k (5-1) P(S_x \rightarrow S_y) =\frac{1}{1+e^\frac{\pi_x-\pi_y}{k}}\tag{5-1} P(Sx→Sy)=1+ekπx−πy1(5-1)
公式5-1表示,个体x选择个体y的概率。π(x)表示x的收益,π(y)表示y的收益,k是噪音因子(是博弈中引入的所允许的非理智性选择的可能)
- k->0,如果π(x)<π(y),那么个体x将会选择个体y的策略。这时e的指数相当于负无穷,即e^-∞为0,则概率即为1。
- k>0,即使 π(x) > π(y),那么个体 x 也会以一定的概率模仿邻居 y 的相对较差的策略,代表了一种非理性行为。(这种k的取值是最常用的)
- k-> ∞,博弈参与者趋于完全非理 性状态,策略更新将是完全随机的选择,即个体 x 有一半的概率模仿个体 y 的策略,也 3.4.2 3.4.3 有一半的概率不改变当前策略。
5.2 蒙特卡洛模拟方法步骤
-
博弈模型、策略更新规则和网络结构的设置。在具有网络结构的博弈模型中,参与者由节点表示,而相邻关系由连接两个节点的边表示。
-
对网络、节点与边、策略、收益等进行初始化(这里的初始化即更新数值)。
-
博弈开始
首先,遍历网络中的所有节点,使得当前节点分别于周围的邻居博弈。
然后,分别计算各方在当前博弈中所获得的收益。
最后,将收益累加至他们各自的收益中。
-
策略更新。 博弈完成后。节点根据既定的策略更新规则进行策略的更新。
-
记录所以得节点的收益及策略变化。
-
从步骤(2)到步骤(5)反复进行,直到策略所占的比例稳定,或者 所有节点的收益收敛到某一点。
-
实验结果分析。整理实验结果并进行分析。
注意:由于种群状态具有动态随机性,为了消除实验中偶然误差的影响,保证实验数据的准确性和有效性,通常采取多次实验的平均值。
6. 策略更新规则机制
6.1 加入已知信息合作者(IC)
IC这种策略,需要付出一定的代价w来获取本次博弈中,其他所有个体所采取的策略。
一般每个个体就是G组里的成员。一组是以个体x为中心的,其余是以x的邻居为中心建立的。个体x的总收益π(x)就是由个体x在G个组中所进行的所有公共物品博弈中所得到的收益加起来。
- π(x)的计算公式为:
π ( x ) = ∑ i = 1 G π i ( x ) (6-1) π(x)=\sum_{i=1}^{G}π_i(x)\tag{6-1} π(x)=i=1∑Gπi(x)(6-1)
其中πi(x)对应着个体x在第i轮所获得的收益。另外,应nc,nd,nic分别表示个体x在第i轮中C,D,IC的数量,那么有
π
i
(
x
)
=
{
r
(
n
C
+
n
I
C
)
n
C
+
n
D
+
n
I
C
−
1
,
if s(x)=C
r
(
n
C
+
n
I
C
)
n
C
+
n
D
+
n
I
C
−
1
−
w
,
if s(x)=IC
r
(
n
C
+
n
I
C
)
n
C
+
n
D
+
n
I
C
,
if s(x)=D
(6-2)
π_i(x)=\begin{cases}\frac{r(n_C+n_{IC})}{n_C+n_D+n_{IC}}-1,& \text{if s(x)=C}\\ \frac{r(n_C+n_{IC})}{n_C+n_D+n_{IC}}-1- w,& \text{if s(x)=IC} \\ \frac{r(n_C+n_{IC})}{n_C+n_D+n_{IC}},&\text{if s(x)=D} \end{cases} \tag{6-2}
πi(x)=⎩
⎨
⎧nC+nD+nICr(nC+nIC)−1,nC+nD+nICr(nC+nIC)−1−w,nC+nD+nICr(nC+nIC),if s(x)=Cif s(x)=ICif s(x)=D(6-2)
在以上公式中,合作者的投入c通常归一化的,即c=1;
r为公共池中的协同因子,一般大于1
w表示IC这类的合作者需要花费多少资金来获取对手的信息
需要说明的是,w的范围为0<w<r-1,这种情况下,个体选择IC的策略的收益小于选择C策略的收益,但高于博弈双方都选择策略D时的收益。
- 这种再通过Fermi函数来依概率是否模仿对象的策略。
前置信息基础(6.2,6.3,6.4)
- 传统的PGG的合作者和背叛者的在第g轮的收益
π x g = r ( N C g + 1 ) G − 1 (6-3) π^{g}_{x}=\frac{r(N^{g}_{C}+1)}{G}-1\tag{6-3} πxg=Gr(NCg+1)−1(6-3)
和
π
x
g
=
r
N
C
g
G
(6-4)
π^{g}_{x}=\frac{rN^{g}_{C}}{G}\tag{6-4}
πxg=GrNCg(6-4)
其中G表示总轮数,N(g,c)表示第g轮中选择合作策略的人数,至于公式6-3为什么要+1,是因为这里还要包括个体x也是合作者,也进行了投资。
- 总收益:
π ( x ) = ∑ g = 1 G π S i g (6-5) π(x)=\sum_{g=1}^{G}π^{g}_{S_i}\tag{6-5} π(x)=g=1∑GπSig(6-5)
S(i) 表示第i轮选择的是策略C,还是策略D
6.2 具有容忍度的声誉评价和依赖剩余的选择模仿
6.2.1 具有容忍度的更新规则
设置一个容忍阈值T,如果一个个体选择了背叛,并且群组中合作者的数量小于T,则声誉值不会变化。(当合作者数量小于T时,说明群组中大部分都是背叛者,如果这时选择了合作,那么是很吃亏的,所以允许在一个容忍度内选择背叛)
- 个体i在时刻t的声誉值更新规则:
R i ( t ) = { R i ( t − 1 ) + 1 , if S i ( t ) = C R i ( t − 1 ) , if S i ( t ) = D 且 N c < T R i ( t − 1 ) , if S i ( t ) = D 且 N c ≥ T (6-7) R_i(t)=\begin{cases}R_i(t-1)+1,& \text{if }S_i{(t)=C}\\ R_i(t-1),& \text{if }S_i{(t)=D 且{N_c<T}} \\ R_i(t-1),& \text{if }S_i{(t)=D 且{N_c{\geq}T}} \end{cases} \tag{6-7} Ri(t)=⎩ ⎨ ⎧Ri(t−1)+1,Ri(t−1),Ri(t−1),if Si(t)=Cif Si(t)=D且Nc<Tif Si(t)=D且Nc≥T(6-7)
初始时,每个个体的声誉值在[0,20]中随机分配
6.2.2 策略模仿规则
- 首先,个体i根据与邻居剩余R(j)成比例的概率从四周邻居中选择一个邻居作为模仿对象。
- 其次,在根据收益差Fermi函数来概率决定是否模仿其邻居j的策略
6.3 学习模仿中的基于声誉的折扣效应
6.3.1 声誉更新公式
R i ( t ) = { R i ( t − 1 ) + 1 , if S i ( t ) = C R i ( t − 1 ) − 1 , if S i ( t ) = D (6-8) R_i(t)=\begin{cases}R_i(t-1)+1,& \text{if }S_i{(t)=C}\\ R_i(t-1)-1,& \text{if }S_i{(t)=D } \end{cases} \tag{6-8} Ri(t)={Ri(t−1)+1,Ri(t−1)−1,if Si(t)=Cif Si(t)=D(6-8)
每个个体的声誉值在[0,100]中随机分配
研究的动机是探索如果大多数人不太可能模仿名声不太好的人的行为,这将在多大程度上促进合作的发生。
6.3.2 基于相对声誉的折扣效应的策略更新规则
这里,这收益差Fermi函数上面做了一些“改动”
P ( S i → S j ) = α i j 1 1 + e π i − π j k (6-9) P(S_i\rightarrow S_j )=\alpha_{ij}\frac{1}{1+e^{\frac{π_i-π_j}{k}}}\tag{6-9} P(Si→Sj)=αij1+ekπi−πj1(6-9)
公式6-9中的 α(ij)就表示相对声誉下的折扣系数,其中α的值为
α i j = { α , if R i − R j ≥ T R 1 , if R i − R j < T R , 0 ≤ α ≤ 1 (6-10) \alpha_{ij}=\begin{cases}\alpha,&\text{if }{R_i-R_j \geq T_R} \\ 1, & \text{if }{R_i-R_j < T_R} \end{cases},{0\leq \alpha \leq 1} \tag{6-10} αij={α,1,if Ri−Rj≥TRif Ri−Rj<TR,0≤α≤1(6-10)
式6-10中,T®表示相对声誉,也就是两个声誉值相减
因此,这基于相对声誉中,如果两者的声誉值之差不满足条件,那么其Fermi函数的概率将再乘一个小于1的折扣系数,这将更大程度上促进合作的发生。
6.3.3 基于绝对声誉的折扣效应的策略更新规则
这里的不同,就在与α的取值条件不同,变为如下
α i j = { α , if R j ≤ T A 1 , if R j > T A , 0 ≤ α ≤ 1 (6-11) \alpha_{ij}=\begin{cases}\alpha,&\text{if }{R_j \leq T_A} \\ 1, & \text{if }{R_j > T_A} \end{cases},{0\leq \alpha \leq 1} \tag{6-11} αij={α,1,if Rj≤TAif Rj>TA,0≤α≤1(6-11)
可见,公式6-11中,T(A)表示邻居j的绝对剩余,也将这个系数乘与收益差函数Fermi中,进行择优处理
6.3.2和6.3.3中,主要改动就在与收益差Fermi函数中,其重要的原理是:
当某一个邻居的声誉值达到要求时,其折扣系数为1,相当于没有打折。这时的Fermi函数就是收益差的概率决定是否模仿邻居的策略。
而当邻居的声誉值未达到要求时,其折扣系数小于1,其在fermi的概率下还要继续降低其决定是否模仿其策略的概率。这时,选择背叛策略的概率将会大大折扣。
其声誉值折扣的原理就在于此。
6.3.4 策略更新规则
这里就很简单了,根据声誉值来确定是否其收益差Fermi函数的概率是否还要继续乘于一个小于1的折扣系数。从而来依概率确定是否模仿其策略。
6.4 基于声誉激励(惩罚)效应和依赖声誉的选择模仿
个体的声誉不仅取决于自身,还取决于周围的邻居, 并且随着自身和邻居行为的变化,声誉激励(惩罚)程度也会有所不同。
在 Fermi 规则的基础上对传统的策略更新规则进行了改进,赋予每个个体相应的 声誉信息推理能力,个体能够通过既定的推理能力选择声誉最高的邻居,而是 否模仿这个个体则取决于基于收益差的 Fermi 函数
6.4.1 其声誉值更新公式:
R i ( t ) = { R i ( t − 1 ) + 1 , if S i ( t ) = C 和 S j ( t ) = C R i ( t − 1 ) + θ , if S i ( t ) = C 和 S j ( t ) = D R i ( t − 1 ) − θ , if S i ( t ) = D 和 S j ( t ) = C R i ( t − 1 ) − 1 , if S i ( t ) = D 和 S j ( t ) = D (6-12) R_i(t)=\begin{cases}R_i(t-1)+1,& \text{if }S_i{(t)=C和{S_j(t)=C}}\\ R_i(t-1)+\theta,& \text{if }S_i{(t)=C 和 {S_j(t)=D}} \\ R_i(t-1)-\theta,& \text{if }S_i{(t)=D 和 {S_j(t)=C}}\\R_i(t-1)-1,& \text{if }S_i{(t)=D和{S_j(t)=D}} \end{cases} \tag{6-12} Ri(t)=⎩ ⎨ ⎧Ri(t−1)+1,Ri(t−1)+θ,Ri(t−1)−θ,Ri(t−1)−1,if Si(t)=C和Sj(t)=Cif Si(t)=C和Sj(t)=Dif Si(t)=D和Sj(t)=Cif Si(t)=D和Sj(t)=D(6-12)
θ即为奖励或者惩罚因子,当自己合作邻居背叛时,当然要奖励;
同理,当自己背叛而邻居选择合作时,要接受惩罚。
6.4.2 策略模仿规则
- 个体i以概率P选择声誉最高的邻居作为其模仿对方;否则,以1-P的概率随机选择邻居来更新策略。
- 再通过使用收益差Fermi函数,依概率的选择是否要模仿其策略。
- 至此,阅读两篇论文的总结到此结束。说句实话,真的不确定本次总结是否存在意义,因为这里面所以话,都是其他人写出来,我转移到这里来的。
- 所以,后期我们可以考虑是否可以把自己的东西作为一种记录写在Typroa里面。