CS269I：Incentives in Computer Science 学习笔记： Lecture 6 Incentivizing Participation（激励性参与）

最新推荐文章于 2024-09-18 20:33:32 发布

ldc1513

最新推荐文章于 2024-09-18 20:33:32 发布

阅读量192

点赞数

分类专栏：学习笔记文章标签：算法博弈论

原文链接：http://timroughgarden.org/f16/f16.html

版权

学习笔记专栏收录该内容

38 篇文章 12 订阅

订阅专栏

这篇博客探讨了激励性参与的重要性，通过合作博弈、技术采纳、公共产品投资和网络效应等模型进行分析。以StackOverflow的勋章设计为例，展示了如何通过设计激励机制影响用户行为，提高参与度。文章指出，合理的勋章系统可以引导用户朝着期望的行为发展，并通过数学模型推导出最佳投入水平。最后，提到了多种勋章设计的可能性及其对用户期待的持久影响。

摘要由CSDN通过智能技术生成

Lecture 6 Incentivizing Participation（激励性参与）

1 Some Simple Models of Participation

上一章中，我们集中讨论了Gnutella中失败的激励机制——囚徒困境式的情境使得很多参与者都倾向于白嫖，这是一类更广泛的问题——激励性参与的开端。激励更高程度的参与是许多系统在设计时最优先考虑的事情。

1.1 Coordination Games

囚徒困境：如果参与是昂贵的，那么很多人的占优策略可能是不参与。

但是，事实上，如果个人动机和集体协调完全一致，那么Pareto的实现也是棘手的。

合作博弈：A,B可以去/不去一个聚会，但是只有两个人一起去的时候聚会才能称得上聚会，他们的支付矩阵如下：

（A的收益，B的收益）	B：去	B：不去
A：去	2，2	-1，0
A：不去	0，-1	0，0

Nash Equilibrium（纳什均衡）：给定其他人的策略，自己的策略是最优的

此时，我们获得了两个纳什均衡：（2，2）和（0，0）

这是激励性参与的核心问题：有multiple（多重的）均衡，但不同的均衡带来的参与程度有显著的区别。我们的目的就是激励参与者进行更大程度的参与行为。

1.2 Technology Adoption & Network Cascades（技术采纳与网络级联）

事实上，日常中的合作博弈的参与者总是多于两人。例如：是否使用新技术，如加入某个社交网络。

模型：第i人加入网络当且仅当至少有他的k_i个朋友都加入网络。例如，在上一节的引入问题中，k_i=1（如果A去参加聚会的话，那么B的选择也应该是参加；如果A不去，那么B也不应该去）

讨论：在这个问题中，一个有趣的现象是“网络级联”——观念和产品如何像病毒一样被传播以及为什么它们的catch on（走红）是如此难以预料。这些分析详见CS244N.

例如，在一个新产品v的推广过程中，w和x是它的直接推广对象；那么，如果节点w的k值为1的话，那么网络内的推广将在w、x处止步，但是如果k值为2，情况就会完全不同——v最终将会被推广到整个网络。

在这里插入图片描述

总之，系统的微小改变会带来对结果的戏剧性影响。

1.3 Underinvestment in a Public Good（公共产品的低投资）

在我们的最后一个模型中，问题不在于多重均衡，而在于个人利益和公共产品的直接冲突——Pareto最优解不存在。让我们以Wikipedia的激励政策为例。

模型：有n个参与者，每个人选择一个投资水平x_i≥0（花多少精力来编撰wiki上的词条）

那么，第i个人的付出设为x_i^2（付出和花费精力成平方关系），而回报为Σx_j（能够浏览所有人编撰的词条）

对个人来说，他的收益是Σx_j-x_i，因此取最大值时x_i=1/2

对集体来说，总收益是nΣx_j-Σx_j^2，由对称性和求导得知x_i=n/2的时候集体收益最大。

因此，n越大，个人和集体的最优解的差异就越大。

1.4 Network Effects

网络效应：一种商品/服务在一个用户上的效果取决于其它用户的效果。

我们今天列举的例子都具有正面的网络效应——用的人越多，每个人的收益就越大。下一讲我们会讨论一些消极的网络效应。

1.5 Summary

激励性参与是重要但困难的，它希望参与者们走向Pareto最优均衡。

2 Case Study：Badge Design

2.1 Preamble（前言）

接下来，我们将会关注“勋章”问题。

讨论：许多平台会给予用户一些公开可见的“勋章”来表彰他们的贡献。我们以Stack Overflow为例。

我们先从现象出发：

现象：1.“勋章”显著地增强了用户的活跃程度

2.勋章改变了用户的活动组合，将活动类型导向（steer）了它们所奖励的活动类型

3.用户越是接近于获得勋章，他们的活跃程度就越高

这个趋势在下图中相当明显：在获得勋章前，用户的活跃程度会逐渐抵达一个峰值，但是在之后迅速衰减到正常水平。
在这里插入图片描述

2.2 The Model

在我们的模型中，仅有一个勋章，在成功（例如，发表1个超过10赞的回答）T次之后获得。

在每个阶段i，一个用户选择一个投入水平q_i∈[0,1]，我们将q_i解释为在第i阶段获得一次成功的概率（例如，你花在写一个回答上的时间越长，你就越容易得到超过10赞），使用s来统计用户累积的成功次数，一旦s≥T，他就获得这个勋章。

假设：1.获得勋章会带来v的效用（之后的每阶段）

2.不同的人愿意为回答付出的基础努力不同，因此我们假设用户具有适应活动水平p，而付出活动水平q的代价函数设为(p-q)^2

3.用户希望尽快获得勋章：在每一阶段，存在一个**discount rate（贴现率）**γ，相当于这个博弈每轮有γ的概率结束。一个人得到的总效用=day1收益+day2收益·γ+day3收益·γ^2+…

2.3 Optimal Investment Levels

设u_s为用户在已经成功s次时的效用，q_s为最大化u_s时的投入

假设在当前阶段开始前已知s的值，现在要判断该阶段的行动：

1° s≥T，此时啥也不用干了（失去理想变成咸鱼），q_s=p，u_s=v+γv+γ²v+…=v/(1-γ)

2°s=T-1，此时如果以q投入，则有q的概率下一轮得到u_T，还有(1-q)的概率下一轮得到的仍是u_(T-1)，因此：
$u_{T-1}=max_q\{-(p-q)^2+\gamma [qu_T+(1-q)u_{T-1}]\}$
代入之前求出的u_T，可以求出：
$u_{T-1}=max_q\{\frac{-(p-q)^2+\gamma qu_T}{1-\gamma +q\gamma}\}$
3°：同理，
$u_{T-2}=max_q\{\frac{-(p-q)^2+\gamma qu_{T-1}}{1-\gamma +q\gamma}\}$
……