一、小世界网络上的博弈概述
- 随机规则网络能使得合作者在更多的欺骗诱惑条件下生存下来, 即合作者完全消亡的背叛诱惑值达到最大。
- 在个体自愿参与的囚徒困境博弈中, 三种策略(合作、背叛、单干)能够通过循环入侵而得以稳定共存, 这样就避免了整个群体陷入完全背叛的状态, 从而对合作行为的演化起到了非常好的促进作用。
- 在方格网络上, 偏好选择的程度必须足够的大才能有助于合作的演化; 但在小世界网络上, 很小程度的偏好选择可以对合作演化起到促进作用。
- 同质小世界网络和异质小世界网络的平均路径长度和集聚水平几乎相同, 但后者中的重连机制能够产生更高水平的结构异质性, 从而使得异质小世界网络更有利于合作行为的演化。
主要以两种方式来生成小世界网络:
- 一种基于规则环图进行断边重连;
- 另一种基于方格网进行断边重连, 关注小世界效应对博弈合作行为演化的影响, 并探讨规则小世界网络和异质小世界网络产生影响的区别。
二、规则小世界网络上的博弈
-
规则小世界网络上的博弈模型构建
对度 k = 4 k=4 k=4 的方格网以概率 P P P 断边重连并随机扰乱,保证每个节点度不变。为简化研究,令囚徒博弈中的参数为 R = 1 , T = b ( b > 1 ) , S = P = 0 R=1,T=b(b>1),S=P=0 R=1,T=b(b>1),S=P=0。网络如图 4-1 所示
定义个体之间影响力参量 A i j ( i , j = 1 , 2 , 3 , … , N ) A_{ij}(i,j=1,2,3,\dots,N) Aij(i,j=1,2,3,…,N),表示博弈个体 j j j 对 i i i 的影响权重,非对称,假定 A i j A_{ij} Aij 服从幂律分布 P ( A ) ∼ A − γ P(A)\sim A^{-\gamma} P(A)∼A−γ,表示社会中有强大影响力的人少,大多数人影响力不大。
更新策略:根据邻居对他的影响力大小,以某个概率选择一个邻居,然后再比较收益,根据比较结构选取下一轮策略。概率为
P i j = A i j ∑ k ∈ Ω i A i k P_{i j}=\frac{A_{i j}}{\sum\limits_{k \in \Omega_{i}} A_{i k}} Pij=k∈Ωi∑AikAij
其中 Ω i \Omega _i Ωi 表示个体 i i i 的邻居集合。当邻居 j j j 被选出来后,个体 i i i 在下次博弈中才去邻居 j j j 的策略的概率为
P ( i ↩ j ) = 1 1 + e [ ( U i − U j ) / k ] P_{(i \hookleftarrow j)}=\frac{1}{1+e^{\left[\left(U_{i}-U_{j}\right) / k\right]}} P(i↩j)=1+e[(Ui−Uj)/k]1 -
仿真实验结果及讨论
- 无论是否存在个体之间影响力的差异, 合作者均衡密度总是随着博弈参数 b b b 的僧大而减少。
- 随着网络中长程连接的增多, 即重连概率 P P P 的增大,合作行为在一定程度上得到促进。
- 随着参数 b b b 取值增加, 合作者的平均密度会继续单调下降。
- 个体之间的影响力差异是群体合作行为产生的重要因素之一。
三、小世界网络上具有行为一致性的博弈
一致性偏好定义:偏好选择周围大多数人所采取的行为。
-
小世界网络上具有行为一致性的博弈模型构建
网络上个体基于行为一致性需求的个体进行囚徒困境博弈, 按照最优反应规则调整策略。
-
基于方格网的规则小世界网络和异质小世界网络
网络结构如图 4-4 所示
规则小世界网络生成方法: 断 A B → 连 B C → 断 C D → 连 D E → 断 E F → 连 F G → 断 G H → 连 H A 断AB\rightarrow连BC\rightarrow断CD\rightarrow连DE\rightarrow断EF\rightarrow连FG\rightarrow断GH\rightarrow连HA 断AB→连BC→断CD→连DE→断EF→连FG→断GH→连HA
异质小世界网络生成方法: 断 A B → 连 B C ; 断 D E → 连 D F 断AB\rightarrow连BC;断DE\rightarrow连DF 断AB→连BC;断DE→连DF,知道所有短程边被重连。
-
个体的囚徒困境博弈及策略更新——引入行为一致性的最优反应
其囚徒困境博弈矩阵如图 4-5 所示
c c c 表示个体采取合作行为 C C C 所付出的成本, b b b 表示合作行为给对手带来的收益( 0 < c < b 0<c<b 0<c<b),背叛行为 D D D 没有成本也不带来任何收益。 用 π ( s i , s j ) \pi(s_i,s_j) π(si,sj) 表示个体 i i i 的博弈收益( s i s_i si 和 s j s_j sj 分别为个体 i i i 和 j j j 的策略), 那么有
π ( C , C ) = b − c , π ( C , D ) = − c , π ( D , C ) = b , π ( D , D ) = 0 \begin{array}{c} \pi(C, C)=b-c, \quad \pi(C, D)=-c, \\ \pi(D, C)=b, \quad \pi(D, D)=0 \end{array} π(C,C)=b−c,π(C,D)=−c,π(D,C)=b,π(D,D)=0
用 s i s_{i} si 表示个体 i i i 的策略, 如果个体 i i i 采取 C C C 策略, 令 s i = 1 s_{i}=1 si=1; 如果个体 i i i 采取 D D D 策略, 令 s i = 0 s_{i}=0 si=0 。那么, 个体 i i i 的收益函数可表示为U i = ∑ j ∈ Ω i π ( s i , s j ) − ∑ j ∈ Ω i ∣ s i − s j ∣ k i ⋅ m U_{i}=\sum_{j \in \Omega_{i}} \pi\left(s_{i}, s_{j}\right)-\frac{\sum\limits_{j \in \Omega _{i}}\left|s_{i}-s_{j}\right|}{k_{i}} \cdot m Ui=j∈Ωi∑π(si,sj)−kij∈Ωi∑∣si−sj∣⋅m
其中, ∑ j ∈ Ω i π ( s i , s j ) \sum\limits_{j \in \Omega_{i}} \pi\left(s_{i}, s_{j}\right) j∈Ωi∑π(si,sj) 表示个体 i i i 的博弈收益; ∑ j ∈ Ω i ∣ s i − s j ∣ k i \frac{\sum\limits_{j \in \Omega_{i}}\left|s_{i}-s_{j}\right|}{k_{i}} kij∈Ωi∑∣si−sj∣ 表示个体 i i i 相互作用的邻居 中与其行为不一致的个体比例( Ω i \Omega_{i} Ωi 为个体 i i i 的邻居集合, k i k_{i} ki 为个体 i i i 的连接数); m ( m > 0 ) m (m>0) m(m>0) 表示个体的。由收益函数可知,行为一致性需求程度 如果个体 i i i 选择 C C C 策略, 可获得收益为U i ( s i = 1 ) = k i C ( b − c ) + k i D ( − c ) − k i D k i ⋅ m U_{i}\left(s_{i}=1\right)=k_{i}^{C}(b-c)+k_{i}^{D}(-c)-\frac{k_{i}^{D}}{k_{i}} \cdot m Ui(si=1)=kiC(b−c)+kiD(−c)−kikiD⋅m
如果个体 i i i 选择 D D D 策略, 可获得收益为U i ( s i = 0 ) = k i C ( b ) − k i C k i ⋅ m U_{i}\left(s_{i}=0\right)=k_{i}^{C}(b)-\frac{k_{i}^{C}}{k_{i}} \cdot m Ui(si=0)=kiC(b)−kikiC⋅m
那么, 当 U i ( s i = 1 ) − U i ( s i = 0 ) ⩾ 0 U_{i}\left(s_{i}=1\right)-U_{i}\left(s_{i}=0\right) \geqslant 0 Ui(si=1)−Ui(si=0)⩾0, 也就是当( k i C − k i D ) ⋅ m k i ⩾ k i ⋅ c \frac{\left(k_{i}^{C}-k_{i}^{D}\right) \cdot m}{k_{i}} \geqslant k_{i} \cdot c ki(kiC−kiD)⋅m⩾ki⋅c
成立时, 个体的最优反应为 C \mathrm{C} C 策略; 否则, 个体选择 D \mathrm{D} D 策略。
-
-
理论分析
若个体没有行为一致性需求,即 m = 0 m=0 m=0,此模型等价于最优反映规则。且个体合作行为得以演化的前提条件是 C C C 策略邻居比 D D D 策略邻居多,即
k i C − k i D > 0 k_i^C-k_i^D>0 kiC−kiD>0
给出几个引理和定理:- 引理1:在规则网络上, 如果某个有 n n n 个 D D D 策略邻居的个体采取了背叛策略, 所有有 n + ε ( ε ≥ 0 ) n+\varepsilon(\varepsilon\ge0) n+ε(ε≥0) 个 D D D 策略邻居的个体必然也采取背叛策略。
- 定理1:在 k k k 维规则网络上, 当 c m > 1 k {c\over m}>{1\over k} mc>k1 时,群体必然演化为全面背叛均衡。
- 定理2:在 k k k 维规则网络上, 当 c m > k − 2 k 2 {c\over m}>{k-2\over k^2} mc>k2k−2 时, 一个背叛者必然导致其周围邻居都采取背叛策略,两个相互连接的背叛者必然导致群体演化为全面背叛。
-
仿真实验结果及讨论
通过仿真实验方法对群体在方格网、 同质小世界网络、 异质小世界网络上的行为演化进行研究。在重复博弈的初始时刻,个体以概率 P 0 P_0 P0 选择 C C C 策略作为初始博弈策略。某个博弈时刻合作者在整个群体中所占的比例称为合作者密度 f C ( t ) = n C ( t ) / N f_C(t)=n_{C(t)}/N fC(t)=nC(t)/N (其中 n C ( t ) n_{C(t)} nC(t) 表示 t t t 时刻群体中合作者的数量) 。调整策略为一致性最优反应策略。将最终的合作者密度 f C ( t ) f_C(t) fC(t) 作为稳定状态的合作者均衡密度 P C P_C PC。
-
初始的合作者密度 P 0 P_0 P0 必须足够大,合作者才可能在引入行为一致性需求的最优反应中存在。
-
对于更高水平的初始合作者密度 P 0 P_0 P0,群体通过演化产生更高水平的合作者均衡密度 P C P_C PC。
-
存在导致完全背叛均衡的临界值 c m c\over m mc。 当仿真参数 c m c\over m mc 大于该临界值时, 群体演化为全面背叛; 当仿真参数 c m c\over m mc 小于该临界值时, 合作者在引入一致性需求的最优反应中得以演化, 但合作者均衡密度不随 c m c \over m mc 的减小而线性噌大, 而是保持一定水平的合作者均衡密度,如图 4-6 所示
-
在行为一致性需求的最优反应学习规则下, 合作行为在局部空间结构上的演化不仅与初始的合作者数量相关,还与初始状态下合作者和背叛者在空间结构中的分布状态有关。
-
对于规则小世界网络上的合作行为:对于不同的参数 q q q,都存在从一定水平的合作者均衡密度 P C P_C PC 转变为全面背叛均衡的 c m c\over m mc 的临界值;其次,随着小世界参数 q q q 的增大,群体通过演化产生更高水平的合作者均衡密度 P C P_C PC。
-
对于异质小世界网络上的合作行为:与规则小世界网络相似,但临界值随着参数 q q q 的增大而减小。随着 c m c\over m mc 的减小, 异质小世界网络上的合作者均衡密度不像方格网和规则小世界网络上那样保持不变, 而是表现出逐期增大的趋势。
-
四、激励机制对小世界网络博弈的影响
目的:网络系统初始状态存在少数的合作者和大量的背叛者时, 合作行为是否还能够在空间网络上产生。
-
小世界网络上的具有激励机制的博弈模型构建
网络结构包括方格网、规则小世界网络和异质小世界网络。用 π ( s i , s j ) \pi(s_i,s_j) π(si,sj) 表示个体 i i i 的博弈收益( s i s_i si 和 s j s_j sj 分别为个体 i i i 和 j j j 的策略), 那么有
π ( C , C ) = b − c , π ( C , D ) = − c , π ( D , C ) = b , π ( D , D ) = 0 \begin{array}{c} \pi(C, C)=b-c, \quad \pi(C, D)=-c, \\ \pi(D, C)=b, \quad \pi(D, D)=0 \end{array} π(C,C)=b−c,π(C,D)=−c,π(D,C)=b,π(D,D)=0
激励机制:这里给定一个固定的奖励金额 σ \sigma σ,表示组织对于采取合作行为的个体的激励。 在个体选择博弈策略, 获得各自的博弈收益后, 金额 σ \sigma σ 将平均分配给所有选择合作行为的个体。 那么, 对于个体 i i i,用 k k k 和 k i C k_i^C kiC 分别表示其博弈对手的数量和采取合作策略的博弈对手数量, 其总收益 U i U_i Ui 是其博弈收益与组织奖励的总和, 即
U i = { k i C b − k c + σ N C 当 i 是合作者 k i C b 当 i 是背叛者 U_{i}=\left\{\begin{array}{ll} k_{i}^{C} b-k c+\frac{\sigma}{N^{C}} & \text { 当 } i \text { 是合作者 } \\ k_{i}^{C} b & \text { 当 } i \text { 是背叛者 } \end{array}\right. Ui={kiCb−kc+NCσkiCb 当 i 是合作者 当 i 是背叛者
其中, N C N^{C} NC 为整个网络中选择合作策略的个体数量。个体在策略更新时采用模仿最优规则,循环重复此过程, 最终整个网络中的合作者比例达到演化稳定状态。
-
理论分析
如图 4-13所示,初始状态 t = 0 t=0 t=0,方格上只有一个合作者1的收益为 − 4 c + σ -4c+\sigma −4c+σ,其他四个邻居标号为2 ~ 5,收益均为 b b b,其他背叛者收益为 0 0 0。如果 − 4 c + σ > b -4c+\sigma>b −4c+σ>b,则2 ~ 5号背叛者在 t = 1 t=1 t=1 选择合作策略,形成如图 4-14 所示结构
根据博弈更新策略
- 1号合作者在 t = 2 t=2 t=2 时刻必然还是选择合作策略;
- 2 ~ 5号合作者在 t = 2 t=2 t=2 时刻依然选择合作策略的条件是1号合作者的收益大于6 ~ 9号背叛者的收益, 即 4 b − 4 c + σ 5 > 2 b 4b-4c+{\sigma\over 5}>2b 4b−4c+5σ>2b;
- 6 ~ 9号背叛者在 t = 2 t=2 t=2 时刻选择合作策略的条件是 2 ~ 5 号合作者的收益大于自身的收益, 即 b − 4 c + σ 5 > 2 b b - 4 c + \frac { \sigma } { 5 } \gt 2 b b−4c+5σ>2b;
- 10 ~ 13号背叛者在 t = 2 t=2 t=2 时刻选择合作策略的条件是2 ~ 5号合作者的收益大于10 ~ 13号背叛者的收益, 即 b − 4 c + σ 5 > b b - 4 c + \frac { \sigma } { 5 } \gt b b−4c+5σ>b。
综合以上所有的分析可知, 当 σ > 5 b + 20 c \sigma>5b+20c σ>5b+20c 时, 1 ~ 5号合作者依然保持合作, 6 ~ 13号背叛者将在 t = 2 t=2 t=2 时刻选择合作策略,形成如图 4-15 所示结构
对后续时刻进行合作演化,各时刻只存在以下四个个体
-
处于合作者聚集中间的合作者(如1 ~ 5号个体),收益为 4 b − 4 c + σ N C ( t ) 4 b - 4 c + \frac { \sigma } { N ^ { C } ( t ) } 4b−4c+NC(t)σ;
-
处于合作者聚集边界的合作者,分两类
- 有两个背叛者邻居(如6 ~ 9号个体),收益为 2 b − c + σ N C ( t ) 2b-c+\frac{\sigma}{N^C(t)} 2b−c+NC(t)σ;
- 有三个背叛者邻居(如10 ~13号个体),收益为 b − 4 c + σ N C ( t ) b - 4 c + \frac { \sigma } { N ^ { C } ( t ) } b−4c+NC(t)σ。
-
处于合作者聚集边界的背叛者,分两类
- 有两个合作者邻居(如14 ~ 21号个体),收益为 2 b 2b 2b;
- 有一个合作者邻居(如22 ~ 25号个体),收益为 b b b。
-
远离合作者聚集结构的背叛者,收益为 0 0 0。
综上所述,从 t = 2 t=2 t=2 时刻,使得合作者聚集结构不断扩大的条件为
σ > 4 c N C ( t ) \sigma \gt 4 c N ^ { C } ( t ) σ>4cNC(t)
当网络系统中合作者数量越来越多, N C ( t ) N^C(t) NC(t) 足够大时,上式难以满足,引入参数 ω = σ 4 c N \omega={\sigma\over 4cN} ω=4cNσ,合作者聚集扩大的条件可以表示为
N C ( t ) N < ω {N^C(t)\over N}<\omega NNC(t)<ω
即当网络中合作者的比例小于 ω \omega ω 时,合作者的聚集结构将继续扩大。 -
仿真实验结果及讨论
通过仿真实验方法对群体在方格网、 同质小世界网络、 异质小世界网络上的行为演化进行研究。在重复博弈的初始时刻,个体以概率 P 0 P_0 P0 选择 C C C 策略作为初始博弈策略。某个博弈时刻合作者在整个群体中所占的比例称为合作者密度 f C ( t ) = n C ( t ) / N f_C(t)=n_{C(t)}/N fC(t)=nC(t)/N (其中 n C ( t ) n_{C(t)} nC(t) 表示 t t t 时刻群体中合作者的数量) 。调整策略为模仿最优反应策略。将最终的合作者密度 f C ( t ) f_C(t) fC(t) 作为稳定状态的合作者均衡密度 P C P_C PC。
-
方格网上合作行为演化的激励
图 4-16 给出不同初始合作者密度 P 0 P_0 P0 条件下, 方格网上激励参数加对合作者均衡密度 P c P_c Pc 的影响。 每个子图中的不同曲线对应不同的博弈成本条件 C C C (个体采取合作所付出的成本)。
对于中等和较高的成本条件( C = 0.5 C=0.5 C=0.5 和 C = 0.8 C=0.8 C=0.8),合作者均衡密度 P C P_C PC 始终随着激励参数 ω \omega ω 的增大而增大;对于较小的成本条件 C = 0.2 C=0.2 C=0.2,合作者均衡密度 P C P_C PC 存在随着激励参数 ω \omega ω 的增大而减小的区域 。
-
小世界网络上合作行为演化的激励
异质小世界网络上的合作者均衡密度总体来说高于规则小世界网络上的合作者均衡密度 。主要是由于异质小世界网络在重连参数 q q q 增大的情况下,度会发生变化,形成许多高连接度的 hub 节点,这些节点有助于合作行为的维持和演化。
其次,合作者均衡密度在异质小世界网络上表现出较好的随着激励参数 ω \omega ω 的增大而逐渐增大的特性。
-