CS269I:Incentives in Computer Science 学习笔记: Lecture 6 Incentivizing Participation(激励性参与)

这篇博客探讨了激励性参与的重要性,通过合作博弈、技术采纳、公共产品投资和网络效应等模型进行分析。以StackOverflow的勋章设计为例,展示了如何通过设计激励机制影响用户行为,提高参与度。文章指出,合理的勋章系统可以引导用户朝着期望的行为发展,并通过数学模型推导出最佳投入水平。最后,提到了多种勋章设计的可能性及其对用户期待的持久影响。
摘要由CSDN通过智能技术生成

Lecture 6 Incentivizing Participation(激励性参与)

1 Some Simple Models of Participation

上一章中,我们集中讨论了Gnutella中失败的激励机制——囚徒困境式的情境使得很多参与者都倾向于白嫖,这是一类更广泛的问题——激励性参与的开端。激励更高程度的参与是许多系统在设计时最优先考虑的事情

1.1 Coordination Games

囚徒困境:如果参与是昂贵的,那么很多人的占优策略可能是不参与。

但是,事实上,如果个人动机和集体协调完全一致,那么Pareto的实现也是棘手的。

合作博弈:A,B可以去/不去一个聚会,但是只有两个人一起去的时候聚会才能称得上聚会,他们的支付矩阵如下:

(A的收益,B的收益)B:去B:不去
A:去2,2-1,0
A:不去0,-10,0

Nash Equilibrium(纳什均衡):给定其他人的策略,自己的策略是最优的

此时,我们获得了两个纳什均衡:(2,2)和(0,0)

这是激励性参与的核心问题:有multiple(多重的)均衡,但不同的均衡带来的参与程度有显著的区别。我们的目的就是激励参与者进行更大程度的参与行为。

1.2 Technology Adoption & Network Cascades(技术采纳与网络级联)

事实上,日常中的合作博弈的参与者总是多于两人。例如:是否使用新技术,如加入某个社交网络。

模型:第i人加入网络当且仅当至少有他的k_i个朋友都加入网络。例如,在上一节的引入问题中,k_i=1(如果A去参加聚会的话,那么B的选择也应该是参加;如果A不去,那么B也不应该去)

讨论:在这个问题中,一个有趣的现象是“网络级联”——观念和产品如何像病毒一样被传播以及为什么它们的catch on(走红)是如此难以预料。这些分析详见CS244N.

例如,在一个新产品v的推广过程中,w和x是它的直接推广对象;那么,如果节点w的k值为1的话,那么网络内的推广将在w、x处止步,但是如果k值为2,情况就会完全不同——v最终将会被推广到整个网络。

在这里插入图片描述

总之,系统的微小改变会带来对结果的戏剧性影响

1.3 Underinvestment in a Public Good(公共产品的低投资)

在我们的最后一个模型中,问题不在于多重均衡,而在于个人利益和公共产品的直接冲突——Pareto最优解不存在。让我们以Wikipedia的激励政策为例。

模型:有n个参与者,每个人选择一个投资水平x_i≥0(花多少精力来编撰wiki上的词条)

​ 那么,第i个人的付出设为x_i^2(付出和花费精力成平方关系),而回报为Σx_j(能够浏览所有人编撰的词条)

对个人来说,他的收益是Σx_j-x_i,因此取最大值时x_i=1/2

对集体来说,总收益是nΣx_j-Σx_j^2,由对称性和求导得知x_i=n/2的时候集体收益最大。

因此,n越大,个人和集体的最优解的差异就越大。

1.4 Network Effects

网络效应:一种商品/服务在一个用户上的效果取决于其它用户的效果。

我们今天列举的例子都具有正面的网络效应——用的人越多,每个人的收益就越大。下一讲我们会讨论一些消极的网络效应。

1.5 Summary

激励性参与是重要但困难的,它希望参与者们走向Pareto最优均衡。

2 Case Study:Badge Design
2.1 Preamble(前言)

接下来,我们将会关注“勋章”问题。

讨论:许多平台会给予用户一些公开可见的“勋章”来表彰他们的贡献。我们以Stack Overflow为例。

我们先从现象出发:

现象:1.“勋章”显著地增强了用户的活跃程度

​ 2.勋章改变了用户的活动组合,将活动类型导向(steer)了它们所奖励的活动类型

​ 3.用户越是接近于获得勋章,他们的活跃程度就越高

​ 这个趋势在下图中相当明显:在获得勋章前,用户的活跃程度会逐渐抵达一个峰值,但是在之后迅速衰减到正常水平。
在这里插入图片描述

2.2 The Model

在我们的模型中,仅有一个勋章,在成功(例如,发表1个超过10赞的回答)T次之后获得。

在每个阶段i,一个用户选择一个投入水平q_i∈[0,1],我们将q_i解释为在第i阶段获得一次成功的概率(例如,你花在写一个回答上的时间越长,你就越容易得到超过10赞),使用s来统计用户累积的成功次数,一旦s≥T,他就获得这个勋章。

假设:1.获得勋章会带来v的效用(之后的每阶段)

​ 2.不同的人愿意为回答付出的基础努力不同,因此我们假设用户具有适应活动水平p,而付出活动水平q的代价函数设为(p-q)^2

​ 3.用户希望尽快获得勋章:在每一阶段,存在一个**discount rate(贴现率)**γ,相当于这个博弈每轮有γ的概率结束。一个人得到的总效用=day1收益+day2收益·γ+day3收益·γ^2+…

2.3 Optimal Investment Levels

设u_s为用户在已经成功s次时的效用,q_s为最大化u_s时的投入

假设在当前阶段开始前已知s的值,现在要判断该阶段的行动:

1° s≥T,此时啥也不用干了(失去理想变成咸鱼),q_s=p,u_s=v+γv+γ²v+…=v/(1-γ)

2°s=T-1,此时如果以q投入,则有q的概率下一轮得到u_T,还有(1-q)的概率下一轮得到的仍是u_(T-1),因此:
u T − 1 = m a x q { − ( p − q ) 2 + γ [ q u T + ( 1 − q ) u T − 1 ] } u_{T-1}=max_q\{-(p-q)^2+\gamma [qu_T+(1-q)u_{T-1}]\} uT1=maxq{(pq)2+γ[quT+(1q)uT1]}
代入之前求出的u_T,可以求出:
u T − 1 = m a x q { − ( p − q ) 2 + γ q u T 1 − γ + q γ } u_{T-1}=max_q\{\frac{-(p-q)^2+\gamma qu_T}{1-\gamma +q\gamma}\} uT1=maxq{1γ+qγ(pq)2+γquT}
3°:同理,
u T − 2 = m a x q { − ( p − q ) 2 + γ q u T − 1 1 − γ + q γ } u_{T-2}=max_q\{\frac{-(p-q)^2+\gamma qu_{T-1}}{1-\gamma +q\gamma}\} uT2=maxq{1γ+qγ(pq)2+γquT1}
……

2.4 Example

设v=1,T=5,p=1/2,使用一些程序,容易求出:

s=0s=1s=2s=3s=4s=5
u_s0.470.761.191.842.754
q_s60%66%74%84%97%50%

在这里插入图片描述

看起来确实和之前的经验图像相当接近

2.5 Final Comments

拓展:多种勋章(不同活动/程度)

对这种问题的研究是less well understood的,不过,有趣的是,如果设定一个非常难以获得的勋章,那么它会起到令人震惊的效果——它持久地提高了人们的期待。当然,最好还是在路上多设置一些里程碑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值