Wisdom of the Crowd Voting:Truthful Aggregation of Voter Information and Preference(博弈论+机制设计) 论文阅读笔记

Wisdom of the Crowd Voting:Truthful Aggregation of Voter Information and Preferences 论文阅读笔记

一、基本信息

  • 题目:群众投票的智慧:真实可信地汇聚投票者的信息与偏好
  • 作者:Grant Schoenebeck,Biaoshuai Tao

二、文章摘要

  • 以下内容取自原文摘要部分:
    我们考虑两个候选人的选举,其中投票者的偏好取决于一个不可直接观察的状态变量。每个投票者接收到一个与状态变量相关的私人信号。投票者可能是“视情况而定”的,也就是说不同状态下偏好不同,也有可能是“事先注定”的,不同状态下有相同偏好。在这种设定下,即便每个投票者都是视情况而定的,代理者依据私人信息投票并不一定导致普遍偏好的候选者胜出,这是因为信号可能存在系统偏差。我们提出一种易于部署的机制去引出并汇聚投票者的私人信号,并且输出被绝大多数投票者偏好的候选者。具体来说,投票者真实汇报自己的信号从而形成强贝叶斯那时均衡(没有任何一个投票者组合策略偏移可以获得更大收益)。
  • 简要来说:一般社会选择机制可能存在谎报获利的情况,因此机制无法直接体现群体的多数偏好。本文的目的即设计机制使得真实策略成为(强)贝叶斯纳什均衡,机制能够真实可信地收集群体的信息与偏好。

三、核心模型

  • 方便理解,创设情境:假设某个公司有 T T T名成员,或者说是代理者,需要决定是否雇佣一个新的公司成员。每位代理者的投票只有两种可能 A A A是接受, B B B是拒绝。
  • 使用 { L , H } \{L,H\} {L,H}衡量该候选者的潜在品质, L L L代表低品质, H H H代表高品质。代理者们不知道候选者的真实品质 W W W(如果知道了肯定就作出必然决策了),但通过阅读候选者简历可以形成一个公共先验信念 ( P L , P H ) = ( P r ( W = L ) , P r ( W = H ) ) (P_L,P_H)=(Pr(W=L),Pr(W=H)) (PL,PH)=(Pr(W=L),Pr(W=H))(所有代理者已知)。
  • 每位代理者都会跟候选者单独进行一场面试,面试过后代理者 t t t都会得到一个信号 S t S_t St(可取值 l , h l,h l,h)。假设所有代理者在确定真实品质情况下获得的信号服从相同分布并且独立。 P l L = P r ( S t = l ∣ W = L ) P_{lL}=Pr(S_t=l|W=L) PlL=Pr(St=lW=L)表示候选者真实品质为 L L L的前提下,任意一个代理者面试后获得 l l l信号的概率。信号的获取与真实品质有关。高品质获得高评价概率更大,低品质获得低评价概率更大。
    P l L > P l H , P h H > P h L P_{lL}>P_{lH},P_{hH}>P_{hL} PlL>PlH,PhH>PhL
  • 根据贝叶斯思想,代理者收到面试评价结合先验信念,生成后验信念,也就是说更新了自己对于候选者隶属于高品质、低品质的概率。不同代理者可能对于接收有着不同的门槛,或者说接收某个候选者对于代理者来说有着不同的效用。但对于任意代理者 t t t来说,接收一定是接受高品质候选者效用更高,拒绝一定是拒绝低品质者效用更高。效用函数结合后验分布,代理者选择最优决策即可。
    v t ( H , A ) > v t ( L , A ) , v t ( H , R ) < v t ( L , R ) v_t(H,A)>v_t(L,A),v_t(H,R)<v_t(L,R) vt(H,A)>vt(L,A),vt(H,R)<vt(L,R)
  • 接下来我们陈述三种不同的投票者。投票者种类 F F F总是倾向于接收,比例为 α F = ∣ F ∣ ∣ T ∣ \alpha_F=\frac{|F|}{|T|} αF=TF;投票者种类 U U U总是倾向于拒绝,比例为 α U = ∣ U ∣ ∣ T ∣ \alpha_U=\frac{|U|}{|T|} αU=TU;投票者种类 C C C视候选者品质而定(高品质更倾向于接收,低品质更倾向于拒绝),比例为 α C = ∣ C ∣ ∣ T ∣ \alpha_C=\frac{|C|}{|T|} αC=TC。三种不同种类投票者的比例是公共信息。三种不同类型投票者的效用函数比较如下:
    F : v t ( H , A ) > v t ( L , A ) > v t ( L , R ) > v t ( H , R ) U : v t ( L , R ) > v t ( H , R ) > v t ( H , A ) > v t ( L , A ) C : v t ( L , R ) > v t ( L , A ) , v t ( H , A ) > v t ( H , R ) F:v_t(H,A)>v_t(L,A)>v_t(L,R)>v_t(H,R)\\ U:v_t(L,R)>v_t(H,R)>v_t(H,A)>v_t(L,A)\\ C:v_t(L,R)>v_t(L,A),v_t(H,A)>v_t(H,R) F:vt(H,A)>vt(L,A)>vt(L,R)>vt(H,R)U:vt(L,R)>vt(H,R)>vt(H,A)>vt(L,A)C:vt(L,R)>vt(L,A),vt(H,A)>vt(H,R)
  • 投票机制的目的是为了输出多数者意愿,也就是说选择出半数以上投票者真正偏好的候选项。假设 T T T是奇数。如果 α F > 1 / 2 \alpha_F>1/2 αF>1/2,那么直接输出接受 A A A;如果 α U > 1 / 2 \alpha_U>1/2 αU>1/2,那么直接输出拒绝 R R R;如果 α F , α U < 1 / 2 \alpha_F,\alpha_U<1/2 αF,αU<1/2,那么决定权在于 C C C手上,因其无论统一投给哪一方,该方都会过半数而获胜, C C C的投票结果由候选人的真实品质决定,真实品质为 H H H,结果为 A A A,真实品质为 L L L,结果为 R R R

  • 结束以上情景的介绍,该情景只是用来方便描述设定,其实该情景可以类似转化应用在很多种实际情况中。比如下面将该情景转化为两候选者的竞选问题。面试情景中的 A , R A,R A,R可以对应到投票给 a , b a,b a,b L , H L,H L,H可以分别表示为 a / b a/b a/b更适合,信号可以来源于电视、报纸等媒体对于候选者的报道, F , U , C F,U,C F,U,C分别表示坚定支持 a a a、坚定支持 b b b、摇摆型投票者。

四、分析方法

  • 投票者向中心提交报告,机制中心收集报告,并且输出最终投票结果。 R R R为报告的可能空间,纯策略是 σ : S → R \sigma:S\rightarrow R σ:SR,投票者收到信号决定向中心提交怎样的报告,在混合策略中, σ \sigma σ可以是随机函数。
  • 本篇文章是一个社会选择问题,基于参与者十分庞大的设定,因此可能单一参与者策略的改变不会影响整体结果,因此一般的贝叶斯纳什均衡在这里就不再适用。我们使用一个更加强大的目标:强贝叶斯纳什均衡 strong Bayes Nash Equilibrium

ϵ \epsilon ϵ-strong Bayes Nash equilbrium
如果一个策略组合 ( α 1 , . . . , α T ) (\alpha_1,...,\alpha_T) (α1,...,αT),如果不存在一个代理者子集 D D D以及一个策略组合 ( α 1 ′ , . . . , α T ′ ) (\alpha_1',...,\alpha_T') (α1,...,αT)符合以下条件,那么是 ϵ \epsilon ϵ-strong Bayes Nash equilbrium。
1.对于不在叛逃子集内的代理者来说,策略不变。
2.对于所有叛逃子集内的代理者来说,采用叛逃策略组合的效用要大于等于之前的。
3.存在某个叛逃子集内的代理者 t t t,其叛逃策略组合下的收益要比之前的大 ϵ \epsilon ϵ以上。

  • 代理者的效用可以表示如下。其中 λ L R ( ∑ ) \lambda_L^R(\sum) λLR()表示输入策略组合 ∑ \sum 之后,真实类型为L的世界中R胜出的概率,其他的符号便可以以此类推。 ∑ ∗ = { σ 1 ∗ , . . . , σ T ∗ } \sum^*=\{\sigma_1^*,...,\sigma_T^*\} ={σ1,...,σT}表示真实可信的策略组合。
    u t ( ∑ ) = P L λ L A ( ∑ ) u t ( L , A ) + P L λ L R ( ∑ ) v t ( L , R ) + P H λ H A ( ∑ ) v t ( H , A ) + P H λ H R ( ∑ ) v t ( H , R ) u_t(\sum)=P_L\lambda_L^A(\sum)u_t(L,A)+P_L\lambda_L^R(\sum)v_t(L,R)+P_H\lambda_H^A(\sum)v_t(H,A)+P_H\lambda_H^R(\sum)v_t(H,R) ut()=PLλLA()ut(L,A)+PLλLR()vt(L,R)+PHλHA()vt(H,A)+PHλHR()vt(H,R)
  • 本文的机制设计一定程度上借鉴了Surprisingly Popular Algorithm,下面展开介绍这个算法。我们令 T l h T_{lh} Tlh表示该代理者收到 h h h的信号( T l h = 1 − T h h T_{lh}=1-T_{hh} Tlh=1Thh),然后认为另外一个代理者收到 l l l信号的概率(建模了根据所收到的信号更新真实世界概率的过程)。
    T m ′ m = P L P m L P L P m L + P H P m H P m ′ L + P H P m H P L P m L + P H P m H P m ′ H T_{m'm}=\frac{P_LP_{mL}}{P_LP_{mL}+P_HP_{mH}}P_{m'L}+\frac{P_HP_{mH}}{P_LP_{mL}+P_HP_{mH}}P_{m'H} Tmm=PLPmL+PHPmHPLPmLPmL+PLPmL+PHPmHPHPmHPmH
    该算法基于非策略性设定(也就是说最优决策只与自己有关)。每位代理者向中心汇报自己收到的信号,以及后验概率,比如收到信号 l l l的代理者会汇报 ( l , T l l ) (l,T_{ll}) (l,Tll),收到信号 h h h的代理者会汇报 ( h , T l h ) (h,T_{lh}) (h,Tlh)。然后中心计算报告收到 l l l的比例,以及报告 T l m T_{lm} Tlm的平均值,如果前者更大那么 l l l被认为是suprisingly popular并且认为 L L L就是真实世界。
  • The Wisdom-of-the-Crowd-Voting Mechanism
    1.每位代理者 t t t向机制中心汇报自己的类型 ( F , U , C ) (F,U,C) (F,U,C)
    2.如果代理者汇报自己类型为 F F F,那么他汇报的信号会自动被看作 s i ˉ = h \bar{s_i}=h siˉ=h;如果代理者汇报自己类型为 U U U,那么他汇报的信号会自动被看作 s i ˉ = l \bar{s_i}=l siˉ=l。(信号的作用是为了让C类型去更新分布, F , U F,U F,U不需要记录信号,即便他们的候选人表现不佳也会坚定支持
    3.让每个汇报类型为 C C C的代理者汇报自己对于所有人中报告信号 h h h比例的预测,所汇报的预测记作 δ t ˉ \bar{\delta_t} δtˉ。我们设定汇报类型为 F F F δ t ˉ = 0 \bar{\delta_t}=0 δtˉ=0,汇报类型为 U U U δ t ˉ = 1 \bar{\delta_t}=1 δtˉ=1
    4.计算所有人汇报预测的中位数 δ ˉ \bar{\delta} δˉ
    5.如果超过半数人报告类型 F F F,那么 A A A直接胜出。反之亦然。
    6.如果汇报自己信号 s t ˉ = h \bar{s_t}=h stˉ=h的比例多于 δ ˉ \bar{\delta} δˉ,那么 A A A胜出;反之 B B B胜出。
    以上机制类似于伪代码,对于有数学以及博弈论功底的人来说比较好理解。但事实上,该机制也是易于部署的,也就是说可以用简单、易于代理者理解的方式应用。对于上述公司聘用职员的问题,可以通过下述问卷实现机制。
    在这里插入图片描述
  • 机制效果:(简略说明)在满足一定条件下,讲真话策略是强贝叶斯纳什均衡的;如果参与者都采取讲真话策略,那么有很大的可能性实现输出多数偏好的目标。
  • 未竟工作及未来研究方向:目前停留在超过 50 % 50\% 50%的多数制,可以拓展到实际应用中常见的 2 / 3 2/3 2/3多数制;该机制目前只能处理两个候选者;需要更多的社会实验去验证机制的可行性与正确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值