论文分享 | 《A unified framework of direct and indirect reciprocity》

A unified framework of direct and indirect reciprocity

1. 概念介绍:

Direct reciprocity(直接互惠):采取的行动取决于你对自己的行为。要求与同一个人重复互动,这就需要考虑长期利益。

Indirect reciprocity(间接互惠):采取的行动也取决于你对其他人做出的行为。不要求个人有以前互动的先例,也不要求他们再次互动。假设通过帮助某人,可以提高你的声誉,这种声誉收益在未来与他人的互动中具有重要价值。

直接互惠和间接互惠的不同:

策略不同:
  • 直接互惠:

特点:利用少量信息就可以做出保持合作的决策的策略。

TFT:以牙还牙,第一步合作,此后每一步都重复对方上一步的行动:合作或背叛。

GTFT:以牙还牙,但是仍有机率选择原谅。这种策略具有鲁棒性,即如果双方有人不小心做出错误决策,有概率纠错以避免恶性循环。

  • 间接互惠:

只有在策略足够复杂时才能保持合作。用一个整数分数来表示声誉。个人只与那些得分足够高的人合作。当玩家合作时,她的分数增加,当她背叛时,分数下降。

一阶策略:玩家的声誉只取决于她之前的行为。

二阶策略:玩家的声誉不仅取决于个人做了什么(合作还是背叛),还取决于个人对谁做了什么。特别是与声誉不好的人合作可能考虑背叛,这是合理的(或或许)。

三阶策略:在决策时并不仅仅依据别人的声誉决定是否合作,同时还需要考虑自身的声誉。

Iwasa等人的研究结果:三阶策略可以维持合作。但是假设声誉必须是二元的(好或坏),策略是确定的(相同的行为总是产生相同的声誉),并且所有信息都是公开的,相互同意的。总结出两种二阶策略和6中三阶策略可以维持合作,这就比直接互惠需要更多的信息。

鲁棒性不同:

鲁棒性——受到误解或其他类型的错误影响。

直接互惠想GTFT具有容错率。而间接互惠的8种策略都是没有。

同一框架下研究这两种方法:

  1. 结合直接互惠和特定间接互惠模型并分析稳定性。
  2. 计算机模拟,让直接策略和间接互惠模型相互竞争。当玩家可以伪造声誉或歪曲他人的声誉时,由于互惠性的演变,这种外部信息变得不可靠而会被玩家忽略,使得计算研究变得困难。每种互惠类型(通常不同复杂度)的相对优势只能通过比较特定参数模拟来推断。

2. 直接和间接互惠的统一框架

模型范式:

  1. n players

  2. d的概率合作并获得b-c的收益(benefit, cost);1-d的概率背叛获得不再合作。

  3. 框架模型 ( y , p , q , λ ) (y, p, q, \lambda) (y,p,q,λ)

    • y:初始人口被认为声誉良好的概率

    • p:co-player最近在直接互惠交互中合作过并被认为声誉良好的概率。理解:对最近信誉良好的合作者的相信概率。

    • q:co-player最近在直接互惠交互中背叛过并被认为声誉良好的概率。理解:对最近信誉较差的合作者的选择原谅并合作的概率

    • λ:对间接互惠模型的接受概率。

  4. 模型结构

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yxVpuwx2-1646825157045)(https://cdn.jsdelivr.net/gh/jiangzheng77/MyblogImg/img/202203091352414.png)]

模型假设:

  1. 完全信息:所有人可以知道其他人的合作还是背叛的先例的信息
  2. 观察错误ε:可以存在由谣言、歪曲事实等构成的社会信息观察错误。

模型特例:

  1. 当λ=0时,该模型就特例化成直接互惠模型,也就是TFT。
  2. 当λ=1时,该模型就特例化成间接互惠模型,就是一个随机一阶间接互惠模型。注意的是在纯间接互惠模型中,只考虑合作者对其他人的行为,而合作者再一次和自己合作的机会概率非常小,并通过实验证明在足够大的社会环境中这种再次相遇对结果影响微不足道。
  3. 经典策略提炼:TFT(1,1,0,0),GTFT(1,1,q,0),SCO(1,1,0,1)

间接互惠模型

  1. 假设
    1. 完全信息:所有人都可以知道相关信息。
    2. 所有人都认可彼此的声誉,即声誉越高,表示越有可能合作。
  2. 存在的问题——>需要基于“私有信息”进行建模
    1. 获取到的信息可能是片面的
    2. 信息存在一定噪声
    3. 不同人采用的不同的规范来做出决策(直接互惠或间接互惠)

互利合作的均衡

结论:对于 λ ∈ [ 0 , 1 ] \lambda \in[0,1] λ[0,1]来说,有一个通用的纳什均衡策略 ( y , p , q , λ ) (y, p, q, \lambda) (y,p,q,λ)使得彼此合作。

条件

ε表示观察错误。

δ表示两个交互的玩家在未来的某个时候再次互动的概率,该概率可通过种群进化相关概率得到。

  1. 对直接互惠模型来说:

    经典的GTFT(1,1,q,0):其中y=p=1,λ=0,而 q 0 = 1 − c δ b q_{0}=1-\frac{c}{\delta b} q0=1δbc

  2. 对间接互惠模型来说:

    本文提出的间接互惠GSCO模型(1,1,q,1):其中y=p=1,λ=0,而 q 1 = 1 − 1 + ( n − 2 ) δ 1 + ( n − 2 ) ( 1 − 2 ϵ ) c δ b q_{1}=1-\frac{1+(n-2) \delta}{1+(n-2)(1-2 \epsilon)} \frac{c}{\delta b} q1=11+(n2)(12ϵ)1+(n2)δδbc

    • GSCO与GTFT相同点:都认为近期合作过的人拥有良好的声誉,偶尔认为近期背叛过的人也拥有良好的声誉(选择一定原谅)。
    • GSCO与GTFT不同点:GTFT只考虑直接互惠交互信息,GSCO考虑对方的所有交互信息。

要使得纳什均衡策略 ( y , p , q , λ ) (y, p, q, \lambda) (y,p,q,λ)有意义,则需要q>=0,所以对δ都大于两种模式下的临界值, δ 0 \delta_{0} δ0等于成本和收益比,而 δ 1 \delta_{1} δ1取决于观察错误ε的大小。
δ ≥ δ 0 = c b  and  δ ≥ δ 1 = c b + ( n − 2 ) ( ( 1 − 2 ϵ ) b − c ) \delta \ge \delta_{0}=\frac{c}{b} \text { and } \delta \ge \delta_{1}=\frac{c}{b+(n-2)((1-2 \epsilon) b-c)} δδ0=bc and δδ1=b+(n2)((12ϵ)bc)c
因此会产生四种情况:(1)直接和间接互惠模型都有均衡,(2)只有间接互惠模型有均衡,(3)只有直接互惠模型有均衡,(4)两者都没有均衡。

不过同时证明可以得到 δ 1 > δ 0 \delta_{1} \gt \delta_{0} δ1>δ0,所有第三种“只有直接互惠模型有均衡“不可能存在。

衍生结论:即使允许任意的复杂的策略,如果GTFT和GSCO都不能在博弈的给定参数下维持合作,那么其他的纳什均衡也不能维持合作。

直接互惠模型和间接互惠模型的动态比较

ALLD(always defect)也是在范式中(0,0,0,λ)所有参数值的一个平衡策略。

动态实验设计

在更大的社会环境下,同时存在很多种均衡策略 ( y , p , q , λ ) (y, p, q, \lambda) (y,p,q,λ),每经过一轮玩家都有可能修改自己的策略,玩家可以随机改变自己的策略或者模仿其他人的策略(这在进化博弈论中表现为种群突变,其特点是当突变很少发生时,种群最多包括两种策略,源居民和突变体)。

动态实验结果

在所有的情况下,当突变很少发生时,玩家最终要么倾向于采用接近ALLD的策略(0,0,0,λ),要么采用有条件的合作策略(1,1,q,λ),形成双稳态。当个体只交互几轮时,间接互惠总体上更有利于合作,而在多轮比赛中,即使在没有任何观察错误的情况下,直接互惠在保持合作方面更有效。

解释动态实验结果实验设计

image-20220309175314928

使用ALLD策略或条件合作策略作为初始总体的策略。

  1. 实验(1)不同的策略入侵需要花费时间(d):当经过很多轮后,条件合作策略(CC)对于直接和间接互惠模型都有相似的入侵时间;当玩家使用直接互惠的方式时,ALLD会更容易被入侵。

  2. 实验(2)记录哪些突变策略入侵了这两种常驻策略(f):平均来说,背叛者被p≫q的条件合作策略入侵

  3. 实验(3)背叛者的收益分析(h):当只有ALLD和有条件合作策略两种策略存在时,可以计算出不同策略背叛者各自的收益πD和πC,z表示条件合作者在其中的比率。

    • 对λ=0,直接互惠模型下
      π C 0 = ( b − c ) × z − ( 1 − δ + δ q ) c × ( 1 − z ) π D 0 = ( 1 − δ + δ q ) b × z \begin{aligned} &\pi_{\mathrm{C}}^{0}=(b-c) \times z-(1-\delta+\delta q) c \times(1-z) \\ &\pi_{\mathrm{D}}^{0}=(1-\delta+\delta q) b \times z \end{aligned} πC0=(bc)×z(1δ+δq)c×(1z)πD0=(1δ+δq)b×z

    • 对λ=1,间接互惠模型下
      π C 1 = q + q ( 1 − q ) ( 1 − z ) 1 − ( 1 − q ) z × z ( b − c ) − q ( 1 − z ) c π D 1 = q b × z \begin{array}{ll} \pi_{\mathrm{C}}^{1} & =\frac{q+q(1-q)(1-z)}{1-(1-q) z} \times z(b-c)-q(1-z) c \\ \pi_{\mathrm{D}}^{1} & =q b \times z \end{array} πC1πD1=1(1q)zq+q(1q)(1z)×z(bc)q(1z)c=qb×z

    结果(h)表明间接互惠成功合作是基于非线性的。合作者只有在足够普遍时才会获得较高的回报。

动态实验结论分析

间接互惠在惩罚背叛者收益更有效(即 π D 1 < π D 0 \pi_{\mathrm{D}}^{1}<\pi_{\mathrm{D}}^{0} πD1<πD0),这也是为什么前期间接互惠总体上更有利于合作。一旦玩家进行了多轮互动,间接互惠就不再有任何优势(因为 π D 1 = π D 0 \pi_{\mathrm{D}}^{1}=\pi_{\mathrm{D}}^{0} πD1=πD0 for δ → 1 \delta \rightarrow 1 δ1)。在这种情况下,背叛者总是更容易在直接互惠的条件下被入侵。

突变率对直接和间接互惠模型影响的实验结果

直接互惠的策略对突变率具有很大的鲁棒性,而间接互惠的策略对突变更敏感,当突变率的变化对间接互惠的策略影响较大,突变率较大时,策略的稳定性也相应变差。像GSCO这样的策略在噪音很小的环境中是最强大的,不仅需要外部信息(小ε),还需要进化过程(小μ)来保证。

是否能学习到何时使用什么策略的能力

设计三种情况的实验:(1)只有少量噪声信息和交互,(2)有相对多的噪声信息和交互,(3)有很多的噪声信息和交互

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TpZKaMqf-1646825157047)(https://cdn.jsdelivr.net/gh/jiangzheng77/MyblogImg/img/202203091830667.png)]

实验结果:当信息噪声和轮次很少时,背叛者占优势,个体学习不合作;当噪声小,交互相对多时,个体主要基于间接互惠模型学习合作;当存在中等噪声和许多交互作用时,个体倾向于基于直接互惠模型进行合作。

3. Discussion

不足

  1. 没有研究信息如何传播,即假设信息科直接被观察到。
  2. 模型中可能存在传播谣言、歪曲事实等对间接互惠模型添加更多界限,增加模型复杂性——>后续
  3. 模型中还可能存在除观察错误意外的错误,如非本意的失误操作等——>后续

特点

  1. 提出的框架在间接互惠模型中属于一阶模型,且具有一定稳定性。
  2. 直接互惠模型和间接互惠模型的结合不再需要设计参数,而是让玩家自我随机探索或模仿来需要到均衡策略。
  3. 建议在突变率小于直接互惠的突变率,外部信息可靠场景下学习得到均衡策略。
  4. 不再依赖获得的信息是否可靠

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nosimper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值