Lecture 6 Incentivizing Participation(激励性参与)
1 Some Simple Models of Participation
上一章中,我们集中讨论了Gnutella中失败的激励机制——囚徒困境式的情境使得很多参与者都倾向于白嫖,这是一类更广泛的问题——激励性参与的开端。激励更高程度的参与是许多系统在设计时最优先考虑的事情。
1.1 Coordination Games
囚徒困境:如果参与是昂贵的,那么很多人的占优策略可能是不参与。
但是,事实上,如果个人动机和集体协调完全一致,那么Pareto的实现也是棘手的。
合作博弈:A,B可以去/不去一个聚会,但是只有两个人一起去的时候聚会才能称得上聚会,他们的支付矩阵如下:
(A的收益,B的收益) | B:去 | B:不去 |
---|---|---|
A:去 | 2,2 | -1,0 |
A:不去 | 0,-1 | 0,0 |
Nash Equilibrium(纳什均衡):给定其他人的策略,自己的策略是最优的
此时,我们获得了两个纳什均衡:(2,2)和(0,0)
这是激励性参与的核心问题:有multiple(多重的)均衡,但不同的均衡带来的参与程度有显著的区别。我们的目的就是激励参与者进行更大程度的参与行为。
1.2 Technology Adoption & Network Cascades(技术采纳与网络级联)
事实上,日常中的合作博弈的参与者总是多于两人。例如:是否使用新技术,如加入某个社交网络。
模型:第i人加入网络当且仅当至少有他的k_i个朋友都加入网络。例如,在上一节的引入问题中,k_i=1(如果A去参加聚会的话,那么B的选择也应该是参加;如果A不去,那么B也不应该去)
讨论:在这个问题中,一个有趣的现象是“网络级联”——观念和产品如何像病毒一样被传播以及为什么它们的catch on(走红)是如此难以预料。这些分析详见CS244N.
例如,在一个新产品v的推广过程中,w和x是它的直接推广对象;那么,如果节点w的k值为1的话,那么网络内的推广将在w、x处止步,但是如果k值为2,情况就会完全不同——v最终将会被推广到整个网络。
总之,系统的微小改变会带来对结果的戏剧性影响。
1.3 Underinvestment in a Public Good(公共产品的低投资)
在我们的最后一个模型中,问题不在于多重均衡,而在于个人利益和公共产品的直接冲突——Pareto最优解不存在。让我们以Wikipedia的激励政策为例。
模型:有n个参与者,每个人选择一个投资水平x_i≥0(花多少精力来编撰wiki上的词条)
那么,第i个人的付出设为x_i^2(付出和花费精力成平方关系),而回报为Σx_j(能够浏览所有人编撰的词条)
对个人来说,他的收益是Σx_j-x_i,因此取最大值时x_i=1/2
对集体来说,总收益是nΣx_j-Σx_j^2,由对称性和求导得知x_i=n/2的时候集体收益最大。
因此,n越大,个人和集体的最优解的差异就越大。
1.4 Network Effects
网络效应:一种商品/服务在一个用户上的效果取决于其它用户的效果。
我们今天列举的例子都具有正面的网络效应——用的人越多,每个人的收益就越大。下一讲我们会讨论一些消极的网络效应。
1.5 Summary
激励性参与是重要但困难的,它希望参与者们走向Pareto最优均衡。
2 Case Study:Badge Design
2.1 Preamble(前言)
接下来,我们将会关注“勋章”问题。
讨论:许多平台会给予用户一些公开可见的“勋章”来表彰他们的贡献。我们以Stack Overflow为例。
我们先从现象出发:
现象:1.“勋章”显著地增强了用户的活跃程度
2.勋章改变了用户的活动组合,将活动类型导向(steer)了它们所奖励的活动类型
3.用户越是接近于获得勋章,他们的活跃程度就越高
这个趋势在下图中相当明显:在获得勋章前,用户的活跃程度会逐渐抵达一个峰值,但是在之后迅速衰减到正常水平。
2.2 The Model
在我们的模型中,仅有一个勋章,在成功(例如,发表1个超过10赞的回答)T次之后获得。
在每个阶段i,一个用户选择一个投入水平q_i∈[0,1],我们将q_i解释为在第i阶段获得一次成功的概率(例如,你花在写一个回答上的时间越长,你就越容易得到超过10赞),使用s来统计用户累积的成功次数,一旦s≥T,他就获得这个勋章。
假设:1.获得勋章会带来v的效用(之后的每阶段)
2.不同的人愿意为回答付出的基础努力不同,因此我们假设用户具有适应活动水平p,而付出活动水平q的代价函数设为(p-q)^2
3.用户希望尽快获得勋章:在每一阶段,存在一个**discount rate(贴现率)**γ,相当于这个博弈每轮有γ的概率结束。一个人得到的总效用=day1收益+day2收益·γ+day3收益·γ^2+…
2.3 Optimal Investment Levels
设u_s为用户在已经成功s次时的效用,q_s为最大化u_s时的投入
假设在当前阶段开始前已知s的值,现在要判断该阶段的行动:
1° s≥T,此时啥也不用干了(失去理想变成咸鱼),q_s=p,u_s=v+γv+γ²v+…=v/(1-γ)
2°s=T-1,此时如果以q投入,则有q的概率下一轮得到u_T,还有(1-q)的概率下一轮得到的仍是u_(T-1),因此:
u
T
−
1
=
m
a
x
q
{
−
(
p
−
q
)
2
+
γ
[
q
u
T
+
(
1
−
q
)
u
T
−
1
]
}
u_{T-1}=max_q\{-(p-q)^2+\gamma [qu_T+(1-q)u_{T-1}]\}
uT−1=maxq{−(p−q)2+γ[quT+(1−q)uT−1]}
代入之前求出的u_T,可以求出:
u
T
−
1
=
m
a
x
q
{
−
(
p
−
q
)
2
+
γ
q
u
T
1
−
γ
+
q
γ
}
u_{T-1}=max_q\{\frac{-(p-q)^2+\gamma qu_T}{1-\gamma +q\gamma}\}
uT−1=maxq{1−γ+qγ−(p−q)2+γquT}
3°:同理,
u
T
−
2
=
m
a
x
q
{
−
(
p
−
q
)
2
+
γ
q
u
T
−
1
1
−
γ
+
q
γ
}
u_{T-2}=max_q\{\frac{-(p-q)^2+\gamma qu_{T-1}}{1-\gamma +q\gamma}\}
uT−2=maxq{1−γ+qγ−(p−q)2+γquT−1}
……
2.4 Example
设v=1,T=5,p=1/2,使用一些程序,容易求出:
s=0 | s=1 | s=2 | s=3 | s=4 | s=5 | |
---|---|---|---|---|---|---|
u_s | 0.47 | 0.76 | 1.19 | 1.84 | 2.75 | 4 |
q_s | 60% | 66% | 74% | 84% | 97% | 50% |
看起来确实和之前的经验图像相当接近
2.5 Final Comments
拓展:多种勋章(不同活动/程度)
对这种问题的研究是less well understood的,不过,有趣的是,如果设定一个非常难以获得的勋章,那么它会起到令人震惊的效果——它持久地提高了人们的期待。当然,最好还是在路上多设置一些里程碑。