英文论文阅读笔记4

The role of reputation to reduce punishment costs in spatial public goods game

​ 总的来说一下,本论文相对于其他论文来讲,相对简单。在传统的惩罚机制的空间公共物品博弈(SPGG)的基础上,加上了声誉机制,并且声誉的存在可以降低惩罚者的惩罚成本,从而提高惩罚者的生存能力。

(1) 基本思路

​ 前几天,刚刚写完了基于概率性惩罚的空间公共物品博弈,惩罚者对于背叛者的惩罚是依概率进行的。但是在这个论文中,惩罚者是肯定要惩罚背叛者的。不存在依不依概率这一说。因此,我感觉也没啥可以记录的,反倒可以写一下这种的代码,作为之后创新的地基。

(2) 不同策略的收益公式

π i g = { r ∗ ( N c + N p ) ∗ c N − c , if  S i = C , r ∗ ( N c + N p ) ∗ c 5 − N p d , if  S i = D , r ∗ ( N c + n p ) ∗ c N − 1 − ( 1 − β ) N d α , if  S i = P . (1) \pi^g_i=\begin{cases} \frac{r*(N_c+N_p)*c}{N}-c ,& \text{if }S_i=C, \\ \frac{r*(N_c+N_p)*c}{5}-N_pd,& \text{if }S_i=D, \\ \frac{r*(N_c+n_p)*c}{N}-1-(1-\beta)N_d\alpha,& \text{if }S_i=P. \end{cases} \tag{1} πig= Nr(Nc+Np)cc,5r(Nc+Np)cNpd,Nr(Nc+np)c1(1β)Ndα,if Si=C,if Si=D,if Si=P.(1)

其中,创新点就在于惩罚者的收益公式不再是减去 N d α N_d\alpha Ndα,而是变成了 ( 1 − β ) N d α (1-\beta)N_d\alpha (1β)Ndα,这个就是创新点所在。而 β \beta β怎么求呢?如下公式
β = R s u m R m a x ∗ N (2) \beta=\frac{R_{sum}}{R_{max}*N} \tag{2} β=RmaxNRsum(2)
其中, R s u m R_{sum} Rsum是指当前组中,所有惩罚者的声誉值之和; R m a x R_{max} Rmax是指当前组中,声誉值最高的值。通过这样的公式得出的系数 β \beta β

可以观察到,随着惩罚者的声誉值越高, β \beta β的值也就越来越大,而惩罚者的惩罚成本却越来越小。

(3) 声誉更新机制

他这里很简单,合作者和惩罚者声誉值加1,背叛者声誉值减一。具体公式如下:

R i ( t + 1 ) = { R i ( t ) + 1 , if  S i = C , P R i ( t ) − 1 , if  S i = D (3) R_i(t+1)=\begin{cases} R_i(t)+1 ,& \text{if }S_i=C,P \\R_i(t)-1,& \text{if }S_i=D \end{cases} \tag{3} Ri(t+1)={Ri(t)+1,Ri(t)1,if Si=C,Pif Si=D(3)

同样,本文使用的是费米函数进行的概率性模仿策略。就是根据自己和邻居j的收益差,概率性地模仿对象j的策略
P = 1 1 + e x p ( π i − π j K ) (4) P=\frac{1}{1+exp(\frac{\pi_i-\pi_j}{K})}\tag{4} P=1+exp(Kπiπj)1(4)

(4) 思考

为什么随着惩罚成本alpha的增加,稳态时合作策略的数量的减少?

因为,背叛者的入侵,导致合作者被背叛者所占领,又因为,惩罚成本的逐渐下降,背叛者占领合作者的领地又被惩罚者所占领,至此,导师合作者数量减少。

那为什么在低惩罚成本的时候,合作者的数量较多呢?

这是因为,在较低的惩罚成本下,惩罚者可以有效的阻止背叛者的入侵,使得合作者极大地避免了背叛者的入侵,从而使得合作数量维持在一个较高的水平。同时,随着r的增大,给予了合作者更大的生存空间,但是这往往会导致惩罚者所占领的范围缩小,不利于合作的促进,反正给背叛者提供了一定的生存空间。

(5) 结论

​ 将声誉机制引入到传统的惩罚空间公共物品博弈中,通过声誉来减小惩罚成本的消耗,极大地促进了合作的涌现。通过上面的一系列仿真实验,我们得出,声誉机制很好的促进了合作出现,并且出现了当惩罚成本高于惩罚罚金时,仍出现合作者和惩罚者占据种群,背叛者消亡的情况。而这种情况的出现,多亏于声誉的存在降低了惩罚成本。

关于本人想在此论文的基础上进行的创新

  1. 就是修改惩罚者的声誉更新规则,让惩罚者的声誉值增加的更快以来补偿付出成本的代价。具体的更新公式我已经放到上面了。
  2. 其次,就是可以加上概率性惩罚这种机制,惩罚者依某种概率对每一个背叛者单独地进行惩罚。

这是我目前的想法,可以慢慢地在此基础上进行扩充。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值