The role of reputation to reduce punishment costs in spatial public goods game
总的来说一下,本论文相对于其他论文来讲,相对简单。在传统的惩罚机制的空间公共物品博弈(SPGG)的基础上,加上了声誉机制,并且声誉的存在可以降低惩罚者的惩罚成本,从而提高惩罚者的生存能力。
(1) 基本思路
前几天,刚刚写完了基于概率性惩罚的空间公共物品博弈,惩罚者对于背叛者的惩罚是依概率进行的。但是在这个论文中,惩罚者是肯定要惩罚背叛者的。不存在依不依概率这一说。因此,我感觉也没啥可以记录的,反倒可以写一下这种的代码,作为之后创新的地基。
(2) 不同策略的收益公式
π i g = { r ∗ ( N c + N p ) ∗ c N − c , if S i = C , r ∗ ( N c + N p ) ∗ c 5 − N p d , if S i = D , r ∗ ( N c + n p ) ∗ c N − 1 − ( 1 − β ) N d α , if S i = P . (1) \pi^g_i=\begin{cases} \frac{r*(N_c+N_p)*c}{N}-c ,& \text{if }S_i=C, \\ \frac{r*(N_c+N_p)*c}{5}-N_pd,& \text{if }S_i=D, \\ \frac{r*(N_c+n_p)*c}{N}-1-(1-\beta)N_d\alpha,& \text{if }S_i=P. \end{cases} \tag{1} πig=⎩ ⎨ ⎧Nr∗(Nc+Np)∗c−c,5r∗(Nc+Np)∗c−Npd,Nr∗(Nc+np)∗c−1−(1−β)Ndα,if Si=C,if Si=D,if Si=P.(1)
其中,创新点就在于惩罚者的收益公式不再是减去
N
d
α
N_d\alpha
Ndα,而是变成了
(
1
−
β
)
N
d
α
(1-\beta)N_d\alpha
(1−β)Ndα,这个就是创新点所在。而
β
\beta
β怎么求呢?如下公式
β
=
R
s
u
m
R
m
a
x
∗
N
(2)
\beta=\frac{R_{sum}}{R_{max}*N} \tag{2}
β=Rmax∗NRsum(2)
其中,
R
s
u
m
R_{sum}
Rsum是指当前组中,所有惩罚者的声誉值之和;
R
m
a
x
R_{max}
Rmax是指当前组中,声誉值最高的值。通过这样的公式得出的系数
β
\beta
β。
可以观察到,随着惩罚者的声誉值越高, β \beta β的值也就越来越大,而惩罚者的惩罚成本却越来越小。
(3) 声誉更新机制
他这里很简单,合作者和惩罚者声誉值加1,背叛者声誉值减一。具体公式如下:
R i ( t + 1 ) = { R i ( t ) + 1 , if S i = C , P R i ( t ) − 1 , if S i = D (3) R_i(t+1)=\begin{cases} R_i(t)+1 ,& \text{if }S_i=C,P \\R_i(t)-1,& \text{if }S_i=D \end{cases} \tag{3} Ri(t+1)={Ri(t)+1,Ri(t)−1,if Si=C,Pif Si=D(3)
同样,本文使用的是费米函数进行的概率性模仿策略。就是根据自己和邻居j的收益差,概率性地模仿对象j的策略
P
=
1
1
+
e
x
p
(
π
i
−
π
j
K
)
(4)
P=\frac{1}{1+exp(\frac{\pi_i-\pi_j}{K})}\tag{4}
P=1+exp(Kπi−πj)1(4)
(4) 思考
为什么随着惩罚成本alpha的增加,稳态时合作策略的数量的减少?
因为,背叛者的入侵,导致合作者被背叛者所占领,又因为,惩罚成本的逐渐下降,背叛者占领合作者的领地又被惩罚者所占领,至此,导师合作者数量减少。
那为什么在低惩罚成本的时候,合作者的数量较多呢?
这是因为,在较低的惩罚成本下,惩罚者可以有效的阻止背叛者的入侵,使得合作者极大地避免了背叛者的入侵,从而使得合作数量维持在一个较高的水平。同时,随着r的增大,给予了合作者更大的生存空间,但是这往往会导致惩罚者所占领的范围缩小,不利于合作的促进,反正给背叛者提供了一定的生存空间。
(5) 结论
将声誉机制引入到传统的惩罚空间公共物品博弈中,通过声誉来减小惩罚成本的消耗,极大地促进了合作的涌现。通过上面的一系列仿真实验,我们得出,声誉机制很好的促进了合作出现,并且出现了当惩罚成本高于惩罚罚金时,仍出现合作者和惩罚者占据种群,背叛者消亡的情况。而这种情况的出现,多亏于声誉的存在降低了惩罚成本。
关于本人想在此论文的基础上进行的创新
- 就是修改惩罚者的声誉更新规则,让惩罚者的声誉值增加的更快以来补偿付出成本的代价。具体的更新公式我已经放到上面了。
- 其次,就是可以加上概率性惩罚这种机制,惩罚者依某种概率对每一个背叛者单独地进行惩罚。
这是我目前的想法,可以慢慢地在此基础上进行扩充。