Inducing Peer Pressure to Promote Cooperation(博弈论+机制设计) 论文阅读笔记

Inducing Peer Pressure to Promote Cooperation 论文阅读笔记

一、基本信息

  • 题目含义:设计机制引导同伴施压以达到促进合作的目的
  • 作者:Ankur Mani、Iyad Rahwan、Alex Pentland

二、文章摘要

  • 以下内容取自原文摘要部分:
    众所周知当个体决策的外部性在整个社会中传播的时候,在由自利个体组成的大社会中合作是很难达成的。这也就导致了所谓的“公地悲剧”,也就是说理性自利举动最终导致每个人得到更坏的结果。传统促进合作的方法包括:庇古税(庇古提出的环境税)或者发放津贴使得个体带来的外部性内部化。我们提出一种新方法来达成全局合作,通过将外部性局部化到社交网络的同伴关系上,从而利用同伴压力的力量来调节行为。这个模型依赖于外部性以及同伴压力的联合。令人吃惊的是,该机制相较于庇古机制需要更少的预算去实施,甚至当考虑到同伴压力的社会成本时也是如此。即使可用的预算很少,该社会机制也可以在结果上取得较大提升。
  • 关键词:外部性、社会合作、公地悲剧、庇古机制、同伴压力
  • 课题背景:聚焦于做“坏事”以获利的机制,比如说工厂大肆排污降低自己成本危害他人利益。达成社会合作是指,参与者们部分抛弃自私的理性,少做“坏事”替他人着想。当然参与者不会无缘无故舍弃利益,因此无干预的情况下不可能形成合作。本文提出了一种方案:利用同伴(邻居)向做“坏事”的人施压的方法来促成合作。

三、核心模型

  • 代理者集合 N N N,社会网络 S = ( N , E ) S=(N,E) S=(N,E),其中 E ⊆ N × N E\subseteq N\times N EN×N。代理者 i i i的邻居(同伴)集合为: N b r ( i ) = { j : ( i , j ) ∈ E } Nbr(i)=\{j:(i,j)\in E\} Nbr(i)={j:(i,j)E}(与 i i i直接相连的 j j j组成邻居集合)我们假设社会网络邻接矩阵稀疏并且代理者最多有 K K K个同伴。
  • 代理者 i i i选择一个动作 x i ∈ R + x_i\in R_+ xiR+。( x i x_i xi理解为做“坏事”的多少,比如说向环境投放的污染), x ∈ R + ∣ N ∣ \bold{x}\in R_+^{|N|} xR+N表示 N N N个代理者的动作组合。
  • 每位代理者根据自身动作选择获得原始效用 u i : R + → R u_i:R_+\rightarrow R ui:R+R。(由正值的污染数映射到实数范围内的原始效用)我们设定 u i u_i ui二次可微并且是严格凹函数拥有唯一极大值和下界,同时当动作选择趋于0时一阶导趋于无穷。
  • 设定 x ∗ x^* x表示均衡状态下的动作组合。 x o x^o xo表示最大化社会盈余(最优情况)下的动作组合。
  • 其他人决策的外部性影响自己的效用。外部性表示如下: v i : R + → R v_i:R_+\rightarrow R vi:R+R(其他代理者的污染数之和映射到一个实数范围内的影响)
  • 同伴施压关系我们用矩阵表示: p ∈ R + N × N \bold{p}\in R_+^{N\times N} pR+N×N,其中 p i j p_{ij} pij表示 i i i施加在 j j j身上的同伴压力。
  • 铺垫工作基本完成。某个代理者的最终效用由四部分组成:加上自己决策导致的原始效用,减去他人决策导致的外部性,减去被施压,减去对他人施压造成的代价
    U i ( x i , x − i , p ) = u i ( x i ) − v i ( ∑ j ≠ i x j ) − ( ∑ j ∈ N b r ( i ) p j i ) ( x i − x i o ) − ( ∑ j ∈ N b r ( i ) p i j ) c U_i(x_i,x_{-i},p)=u_i(x_i)-v_i(\sum_{j\neq i}x_j)-(\sum_{j\in Nbr(i)}p_{ji})(x_i-x_i^o)-(\sum_{j\in Nbr(i)}p_{ij})c Ui(xi,xi,p)=ui(xi)vi(j=ixj)(jNbr(i)pji)(xixio)(jNbr(i)pij)c
  • 社会盈余也就是模型的目标函数设定为: S ( x ) = ∑ i ∈ N U i ( x i , x − i , p ) S(x)=\sum_{i\in N}U_i(x_i,x_{-i},p) S(x)=iNUi(xi,xi,p)
  • 我们将该外部性模型设计为二阶段博弈。第一阶段:代理者选择想要施加于邻居之上的压力;第二阶段:代理者观察自己身上的压力然后对此做出最优动作响应。
  • 观察最终的效用函数,我们发现有两个元素还未确定。一是同伴施压关系 p \bold{p} p,谁会向谁施加多大的压力?二是施压代价 c c c,施压代价也直接决定了同伴施压关系。(比如你去劝说公共场合抽烟的人,可能这个人会打击报复)
  • 以上展示的是效用规则,可以理解为外部性内部化的过程(也就是将所产生的外部性加入到自己的效用函数中)。该机制还设计了奖励规则。与传统的庇古税奖励外部性产生者的规则不同,该机制奖励的是外部性产生者的邻居,也就是表征邻居对外部性产生者约束程度的好坏。 r j i ( x j ) r_{ji}(x_j) rji(xj)表示邻居 j j j采取动作 x j x_j xj i i i的奖励, i i i全部的奖励可以表征为 ∑ j ∈ N b r ( i ) r j i ( x j ) \sum_{j\in Nbr(i)}r_{ji}(x_j) jNbr(i)rji(xj)。其中
    r j i ( x j ) = ( α i + β i ) ( x j − x j ∗ ) α i = c u j ′ ′ ( x j o ) , β i = v i ′ ( ∑ k ≠ i x k o ) r_{ji}(x_j)=(\alpha_i+\beta_i)(x_j-x_j^*)\\ \alpha_i=cu''_j(x_j^o),\beta_i=v'_i(\sum_{k\neq i}x_k^o) rji(xj)=(αi+βi)(xjxj)αi=cuj(xjo),βi=vi(k=ixko)
  • Q:该模型将施压的代价统一设定为固定值 c c c,这是一个简化模型的设计,但明显不太符合实际。能否根据不同代理者的特性,去为不同代理者设计不同的施压代价函数呢?
    在这里插入图片描述

四、示例分析

  • 示例场景:同类代理者 N = { 1 , . . . , 100 } N=\{1,...,100\} N={1,...,100},每个代理者在社会网络中有10个同伴。原始效用函数为 u i ( x i ) = 12 x i 0.8 − 4 x i u_i(x_i)=12x_i^{0.8}-4x_i ui(xi)=12xi0.84xi。外部性函数为 v i ( y ) = 0.0001 ( y ) 1.5 v_i(y)=0.0001(y)^{1.5} vi(y)=0.0001(y)1.5。施加压力的边际代价为 c = 1 c=1 c=1。下图展示了原始效用函数、外部性、总体效用函数随消费的改变而改变。
    在这里插入图片描述
  • 我们分析得知:蓝色曲线代表原始效用函数在 X = 79.62 X=79.62 X=79.62处达到最大值,同时也是无同伴压力下的均衡情况。绿色曲线代表外部性。红色曲线代表最终效用函数,在 X = 31.19 X=31.19 X=31.19处达到最大值。我们看到当前条件下施加的同伴压力,只是让 X = 79.62 X=79.62 X=79.62降低到了 X = 67.47 X=67.47 X=67.47,距离全局最优解 X = 31.19 X=31.19 X=31.19还有较大的距离。需要我们仔细调整施压力度以及施压代价等多个参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值