Inducing Peer Pressure to Promote Cooperation（博弈论+机制设计）论文阅读笔记

最新推荐文章于 2022-03-05 15:44:08 发布

AgentSmart

最新推荐文章于 2022-03-05 15:44:08 发布

阅读量578

点赞数 1

分类专栏：算法学习博弈论机器学习

本文链接：https://blog.csdn.net/dzc_go/article/details/121443990

版权

机器学习同时被 3 个专栏收录

37 篇文章

订阅专栏

博弈论

24 篇文章

订阅专栏

算法学习

23 篇文章

订阅专栏

Inducing Peer Pressure to Promote Cooperation 论文阅读笔记

一、基本信息

题目含义：设计机制引导同伴施压以达到促进合作的目的。
作者：Ankur Mani、Iyad Rahwan、Alex Pentland

二、文章摘要

以下内容取自原文摘要部分：
众所周知当个体决策的外部性在整个社会中传播的时候，在由自利个体组成的大社会中合作是很难达成的。这也就导致了所谓的“公地悲剧”，也就是说理性自利举动最终导致每个人得到更坏的结果。传统促进合作的方法包括：庇古税（庇古提出的环境税）或者发放津贴使得个体带来的外部性内部化。我们提出一种新方法来达成全局合作，通过将外部性局部化到社交网络的同伴关系上，从而利用同伴压力的力量来调节行为。这个模型依赖于外部性以及同伴压力的联合。令人吃惊的是，该机制相较于庇古机制需要更少的预算去实施，甚至当考虑到同伴压力的社会成本时也是如此。即使可用的预算很少，该社会机制也可以在结果上取得较大提升。
关键词：外部性、社会合作、公地悲剧、庇古机制、同伴压力
课题背景：聚焦于做“坏事”以获利的机制，比如说工厂大肆排污降低自己成本危害他人利益。达成社会合作是指，参与者们部分抛弃自私的理性，少做“坏事”替他人着想。当然参与者不会无缘无故舍弃利益，因此无干预的情况下不可能形成合作。本文提出了一种方案：利用同伴（邻居）向做“坏事”的人施压的方法来促成合作。

三、核心模型

代理者集合 $N$ ，社会网络 $S = (N, E)$ ，其中 $E\subseteq N\times N$ 。代理者 $i$ 的邻居（同伴）集合为： $Nbr(i)=\{j:(i,j)\in E\}$ （与 $i$ 直接相连的 $j$ 组成邻居集合）我们假设社会网络邻接矩阵稀疏并且代理者最多有 $K$ 个同伴。
代理者 $i$ 选择一个动作 $x_i\in R_+$ 。（ $x_i$ 理解为做“坏事”的多少，比如说向环境投放的污染）， $\bold{x}\in R_+^{|N|}$ 表示 $N$ 个代理者的动作组合。
每位代理者根据自身动作选择获得原始效用 $u_i:R_+\rightarrow R$ 。（由正值的污染数映射到实数范围内的原始效用）我们设定 $u_i$ 二次可微并且是严格凹函数拥有唯一极大值和下界，同时当动作选择趋于0时一阶导趋于无穷。
设定 $x^*$ 表示均衡状态下的动作组合。 $x^o$ 表示最大化社会盈余（最优情况）下的动作组合。
其他人决策的外部性影响自己的效用。外部性表示如下： $v_i:R_+\rightarrow R$ （其他代理者的污染数之和映射到一个实数范围内的影响）
同伴施压关系我们用矩阵表示： $\bold{p}\in R_+^{N\times N}$ ，其中 $p_{ij}$ 表示 $i$ 施加在 $j$ 身上的同伴压力。
铺垫工作基本完成。某个代理者的最终效用由四部分组成：加上自己决策导致的原始效用，减去他人决策导致的外部性，减去被施压，减去对他人施压造成的代价。
$U_i(x_i,x_{-i},p)=u_i(x_i)-v_i(\sum_{j\neq i}x_j)-(\sum_{j\in Nbr(i)}p_{ji})(x_i-x_i^o)-(\sum_{j\in Nbr(i)}p_{ij})c$
社会盈余也就是模型的目标函数设定为： $S(x)=\sum_{i\in N}U_i(x_i,x_{-i},p)$
我们将该外部性模型设计为二阶段博弈。第一阶段：代理者选择想要施加于邻居之上的压力；第二阶段：代理者观察自己身上的压力然后对此做出最优动作响应。
观察最终的效用函数，我们发现有两个元素还未确定。一是同伴施压关系 $\bold{p}$ ，谁会向谁施加多大的压力？二是施压代价 $c$ ，施压代价也直接决定了同伴施压关系。（比如你去劝说公共场合抽烟的人，可能这个人会打击报复）
以上展示的是效用规则，可以理解为外部性内部化的过程（也就是将所产生的外部性加入到自己的效用函数中）。该机制还设计了奖励规则。与传统的庇古税奖励外部性产生者的规则不同，该机制奖励的是外部性产生者的邻居，也就是表征邻居对外部性产生者约束程度的好坏。 $r_{ji}(x_j)$ 表示邻居 $j$ 采取动作 $x_j$ 对 $i$ 的奖励， $i$ 全部的奖励可以表征为 $\sum_{j\in Nbr(i)}r_{ji}(x_j)$ 。其中
$r_{ji}(x_j)=(\alpha_i+\beta_i)(x_j-x_j^*)\\ \alpha_i=cu''_j(x_j^o),\beta_i=v'_i(\sum_{k\neq i}x_k^o)$
Q:该模型将施压的代价统一设定为固定值 $c$ ，这是一个简化模型的设计，但明显不太符合实际。能否根据不同代理者的特性，去为不同代理者设计不同的施压代价函数呢？

四、示例分析

示例场景：同类代理者 $N=\{1,...,100\}$ ，每个代理者在社会网络中有10个同伴。原始效用函数为 $u_i(x_i)=12x_i^{0.8}-4x_i$ 。外部性函数为 $v_i(y)=0.0001(y)^{1.5}$ 。施加压力的边际代价为 $c = 1$ 。下图展示了原始效用函数、外部性、总体效用函数随消费的改变而改变。
我们分析得知：蓝色曲线代表原始效用函数在 $X = 79.62$ 处达到最大值，同时也是无同伴压力下的均衡情况。绿色曲线代表外部性。红色曲线代表最终效用函数，在 $X = 31.19$ 处达到最大值。我们看到当前条件下施加的同伴压力，只是让 $X = 79.62$ 降低到了 $X = 67.47$ ，距离全局最优解 $X = 31.19$ 还有较大的距离。需要我们仔细调整施压力度以及施压代价等多个参数。