一、基本信息
- 题目含义:设计机制引导同伴施压以达到促进合作的目的。
- 作者:Ankur Mani、Iyad Rahwan、Alex Pentland
二、文章摘要
- 以下内容取自原文摘要部分:
众所周知当个体决策的外部性在整个社会中传播的时候,在由自利个体组成的大社会中合作是很难达成的。这也就导致了所谓的“公地悲剧”,也就是说理性自利举动最终导致每个人得到更坏的结果。传统促进合作的方法包括:庇古税(庇古提出的环境税)或者发放津贴使得个体带来的外部性内部化。我们提出一种新方法来达成全局合作,通过将外部性局部化到社交网络的同伴关系上,从而利用同伴压力的力量来调节行为。这个模型依赖于外部性以及同伴压力的联合。令人吃惊的是,该机制相较于庇古机制需要更少的预算去实施,甚至当考虑到同伴压力的社会成本时也是如此。即使可用的预算很少,该社会机制也可以在结果上取得较大提升。 - 关键词:外部性、社会合作、公地悲剧、庇古机制、同伴压力
- 课题背景:聚焦于做“坏事”以获利的机制,比如说工厂大肆排污降低自己成本危害他人利益。达成社会合作是指,参与者们部分抛弃自私的理性,少做“坏事”替他人着想。当然参与者不会无缘无故舍弃利益,因此无干预的情况下不可能形成合作。本文提出了一种方案:利用同伴(邻居)向做“坏事”的人施压的方法来促成合作。
三、核心模型
- 代理者集合 N N N,社会网络 S = ( N , E ) S=(N,E) S=(N,E),其中 E ⊆ N × N E\subseteq N\times N E⊆N×N。代理者 i i i的邻居(同伴)集合为: N b r ( i ) = { j : ( i , j ) ∈ E } Nbr(i)=\{j:(i,j)\in E\} Nbr(i)={j:(i,j)∈E}(与 i i i直接相连的 j j j组成邻居集合)我们假设社会网络邻接矩阵稀疏并且代理者最多有 K K K个同伴。
- 代理者 i i i选择一个动作 x i ∈ R + x_i\in R_+ xi∈R+。( x i x_i xi理解为做“坏事”的多少,比如说向环境投放的污染), x ∈ R + ∣ N ∣ \bold{x}\in R_+^{|N|} x∈R+∣N∣表示 N N N个代理者的动作组合。
- 每位代理者根据自身动作选择获得原始效用 u i : R + → R u_i:R_+\rightarrow R ui:R+→R。(由正值的污染数映射到实数范围内的原始效用)我们设定 u i u_i ui二次可微并且是严格凹函数拥有唯一极大值和下界,同时当动作选择趋于0时一阶导趋于无穷。
- 设定 x ∗ x^* x∗表示均衡状态下的动作组合。 x o x^o xo表示最大化社会盈余(最优情况)下的动作组合。
- 其他人决策的外部性影响自己的效用。外部性表示如下: v i : R + → R v_i:R_+\rightarrow R vi:R+→R(其他代理者的污染数之和映射到一个实数范围内的影响)
- 同伴施压关系我们用矩阵表示: p ∈ R + N × N \bold{p}\in R_+^{N\times N} p∈R+N×N,其中 p i j p_{ij} pij表示 i i i施加在 j j j身上的同伴压力。
- 铺垫工作基本完成。某个代理者的最终效用由四部分组成:加上自己决策导致的原始效用,减去他人决策导致的外部性,减去被施压,减去对他人施压造成的代价。
U i ( x i , x − i , p ) = u i ( x i ) − v i ( ∑ j ≠ i x j ) − ( ∑ j ∈ N b r ( i ) p j i ) ( x i − x i o ) − ( ∑ j ∈ N b r ( i ) p i j ) c U_i(x_i,x_{-i},p)=u_i(x_i)-v_i(\sum_{j\neq i}x_j)-(\sum_{j\in Nbr(i)}p_{ji})(x_i-x_i^o)-(\sum_{j\in Nbr(i)}p_{ij})c Ui(xi,x−i,p)=ui(xi)−vi(j=i∑xj)−(j∈Nbr(i)∑pji)(xi−xio)−(j∈Nbr(i)∑pij)c - 社会盈余也就是模型的目标函数设定为: S ( x ) = ∑ i ∈ N U i ( x i , x − i , p ) S(x)=\sum_{i\in N}U_i(x_i,x_{-i},p) S(x)=∑i∈NUi(xi,x−i,p)
- 我们将该外部性模型设计为二阶段博弈。第一阶段:代理者选择想要施加于邻居之上的压力;第二阶段:代理者观察自己身上的压力然后对此做出最优动作响应。
- 观察最终的效用函数,我们发现有两个元素还未确定。一是同伴施压关系 p \bold{p} p,谁会向谁施加多大的压力?二是施压代价 c c c,施压代价也直接决定了同伴施压关系。(比如你去劝说公共场合抽烟的人,可能这个人会打击报复)
- 以上展示的是效用规则,可以理解为外部性内部化的过程(也就是将所产生的外部性加入到自己的效用函数中)。该机制还设计了奖励规则。与传统的庇古税奖励外部性产生者的规则不同,该机制奖励的是外部性产生者的邻居,也就是表征邻居对外部性产生者约束程度的好坏。
r
j
i
(
x
j
)
r_{ji}(x_j)
rji(xj)表示邻居
j
j
j采取动作
x
j
x_j
xj对
i
i
i的奖励,
i
i
i全部的奖励可以表征为
∑
j
∈
N
b
r
(
i
)
r
j
i
(
x
j
)
\sum_{j\in Nbr(i)}r_{ji}(x_j)
∑j∈Nbr(i)rji(xj)。其中
r j i ( x j ) = ( α i + β i ) ( x j − x j ∗ ) α i = c u j ′ ′ ( x j o ) , β i = v i ′ ( ∑ k ≠ i x k o ) r_{ji}(x_j)=(\alpha_i+\beta_i)(x_j-x_j^*)\\ \alpha_i=cu''_j(x_j^o),\beta_i=v'_i(\sum_{k\neq i}x_k^o) rji(xj)=(αi+βi)(xj−xj∗)αi=cuj′′(xjo),βi=vi′(k=i∑xko) - Q:该模型将施压的代价统一设定为固定值
c
c
c,这是一个简化模型的设计,但明显不太符合实际。能否根据不同代理者的特性,去为不同代理者设计不同的施压代价函数呢?
四、示例分析
- 示例场景:同类代理者
N
=
{
1
,
.
.
.
,
100
}
N=\{1,...,100\}
N={1,...,100},每个代理者在社会网络中有10个同伴。原始效用函数为
u
i
(
x
i
)
=
12
x
i
0.8
−
4
x
i
u_i(x_i)=12x_i^{0.8}-4x_i
ui(xi)=12xi0.8−4xi。外部性函数为
v
i
(
y
)
=
0.0001
(
y
)
1.5
v_i(y)=0.0001(y)^{1.5}
vi(y)=0.0001(y)1.5。施加压力的边际代价为
c
=
1
c=1
c=1。下图展示了原始效用函数、外部性、总体效用函数随消费的改变而改变。
- 我们分析得知:蓝色曲线代表原始效用函数在 X = 79.62 X=79.62 X=79.62处达到最大值,同时也是无同伴压力下的均衡情况。绿色曲线代表外部性。红色曲线代表最终效用函数,在 X = 31.19 X=31.19 X=31.19处达到最大值。我们看到当前条件下施加的同伴压力,只是让 X = 79.62 X=79.62 X=79.62降低到了 X = 67.47 X=67.47 X=67.47,距离全局最优解 X = 31.19 X=31.19 X=31.19还有较大的距离。需要我们仔细调整施压力度以及施压代价等多个参数。