众包中真值推断的随机猜测和任务难度建模

Modeling Random Guessing and Task Difficulty for Truth Inference in Crowdsourcing

作者

Yi Yang Auckland University of Technology Auckland, New Zealand yi.yang@aut.ac.nz
Quan Bai University of Tasmania Hobart, Australia quan.bai@utas.edu.au
Qing Liu Data61, CSIRO Hobart, Australia q.liu@data61.csiro.au

1 摘要

本文讨论了众包应用中真值推断的挑战。我们提出了一种将任务难度、工人能力和猜测行为联合建模的生成式方法来估计众包任务的真实性,从而使工人的能力和任务的真值得到更准确的估计。实验结果表明,与现有的方法相比,本文提出的方法能更有效地估计众包任务的真值。

关键词:众包,真值推理

在一个众包平台中,例如Amazon Mechanical Turk 1,请求者可以发布她的任务并从众包工人那里获得答案。由于工人的专业技能和能力不同,对同一任务收集到的答案通常是相互冲突的。因此,众包的一个重要任务就是解决众包工人给出的答案之间的冲突,发现每个任务的真实答案(真值)。直觉上,我们应该相信高能力员工的回答。然而,工人的能力和任务的真值通常是先验未知的。因此,真理推断[2,3,5,8,10-12]出现并通过联合估计工人的能力和任务的真值来解决这个问题。

在本文中,我们考虑了众包应用中两个重要的现象来进行众包真值推断。(1) 众包任务的难度通常不同。一个能经常正确回答简单问题的员工,并不意味着她对困难问题的回答也值得信赖。因此,通过对任务难度的建模和估计,可以提高真值推断的性能[6,7,9,13]。(2) 众包任务大多是多选任务,即每个任务有K个互斥选择,只有一个真实答案。由于众包应用程序中的工人是人,当一个工人不知道任务的真实答案时,她可以选择猜测并提交一个随机答案。

我们的贡献. 基于上述两个现象,我们提出了一种新的方法,即众包真值发现模型猜测和任务难度(Crowdsourced Truth Discovery modeling Guessing and task Difficulty,CTDGD),该方法通过对任务难度、工人能力和猜测行为的联合建模来推断多选任务的真值。具体地说,在概率生成模型中,工人的能力和答案以及任务的真实答案和难度被建模为随机变量。工人的能力和任务的真实答案和难度共同决定了工人是否知道任务的真实答案。如果工人不知道真相,她会从可用的选项中提交一个猜测的答案。通过模拟猜测,可以在不高估的情况下估计工人的能力。通过对任务难度的建模,可以更准确地估计困难任务的真实性。实验已经在真实世界的数据集上进行,并证明CTDGD优于现有的众包真值推断方法。

2 我们的方法

在本节中,我们将介绍CTDGD。

2.1 答案建模

假设有 m m m个工人 { w i } i = 0 m − 1 \{w_i\}^{m−1}_{i=0} {wi}i=0m1 n n n个任务 { t j } j = 0 n − 1 \{t_j\}^{n−1}_{j=0} {tj}j=0n1。每个任务都有 K K K个互斥选择,索引从 1 1 1 K K K。每个工人 w i w_i wi可以选择一个选择作为任务的 t j t_j tj的答案 x i j x_{ij} xij。真值推断的目的是从所观察到的答案 { x i j } \{x_{ij}\} {xij}中找到中每个任务 { t j } \{t_j\} {tj}的真答案 { z j } \{z_j\} {zj}。同时,所提出的CTDGD输出估计的工人能力 { a i } \{a_i\} {ai}和任务难度 { d j } \{d_j\} {dj}

我们将每个工人的能力 a i a_i ai和每个任务的难度 d j d_j dj建模为取自(-∞,+∞)的实数。利用logistic函数,工人知道 t j t_j tj的真实答案的概率 ϕ i j \phi_{ij} ϕij
ϕ i j = σ ( a i − d j ) = 1 1 + e x p ( − ( a i − d j ) ) (1) \phi_{ij}=\sigma(a_i-d_j)=\frac{1}{1+exp(-(a_i-d_j))}\tag{1} ϕij=σ(aidj)=1+exp((aidj))1(1)

其中 σ \sigma σ是logistic函数。从方程式(1)我们可以看出,如果 ( a i − d j ) (a_i-d_j) (aidj)较大,工人知道 t j t_j tj真相的概率很高。因此,如果一个工人的能力比任务的难度小,那么她更可能对简单的任务给出一个真实的答案,而对一个困难的任务则不太可能正确回答。

如果工人不知道真相,她可以猜测并提交一个随机选择作为她的答案。因此,观察到的答案 x i j {x_{ij}} xij的概率为真值 z j z_j zj是:

p ( x i j = k ∣ z j = k , d j , a i ) = ϕ i j + ( 1 − ϕ i j ) 1 K (2) p(x_{ij}=k|z_j=k,d_j,a_i)=\phi_{ij}+(1-\phi_{ij})\frac{1}{K}\tag{2} p(xij=kzj=k,dj,ai)=ϕij+(1ϕij)K1(2)

我们使用“一枚硬币模型”[13]来模拟工人提交错误答案的情况。因此,对于所有 k ′ ≠ k k'\neq k k=k,观察到的答案 x i j x_{ij} xij错误的概率是:

p ( x i j = k ′ ∣ z j = k , d j , a i ) = ( 1 − ϕ i j ) 1 K (3) p(x_{ij}=k'|z_j=k,d_j,a_i)=(1-\phi_{ij})\frac{1}{K}\tag{3} p(xij=kzj=k,dj,ai)=(1ϕij)K1(3)

结合方程式(2)和(3),被观察工人回答的条件概率为:

p ( x i j ∣ z j = k , d j , a i ) = ( ϕ i j + ( 1 − ϕ i j ) 1 K ) δ i j ( ( 1 − ϕ i j ) 1 K ) 1 − δ i j (4) p(x_{ij}|z_j=k,d_j,a_i)=(\phi_{ij}+(1-\phi_{ij})\frac{1}{K})^{\delta_{ij}}((1-\phi_{ij})\frac{1}{K})^{1-\delta_{ij}}\tag{4} p(xijzj=k,dj,ai)=(ϕij+(1ϕij)K1)δij((1ϕij)K1)1δij(4)

其中 δ i j \delta_{ij} δij表示克罗内克(Kronecker delta)函数。

2.2 表述

CTDGD是一个生成模型。工人的能力 a i a_i ai,任务的难度 d j d_j dj和真值 z j z_j zj和工人的答案 x i j x_{ij} xij被建模为随机变量。这些随机变量之间的关系如图1所示。每个随机变量的生成过程如下所述。

图1:图形模型
图1:图形模型

真实的答案来自一个范畴分布: p ( z j ) = C a t ( K , α ) p(z_j)=Cat(K,α) p(zj)=Cat(K,α)。工人的答案由一个范畴分布产生,概率质量函数在等式(4)中定义。 d j d_j dj由正态分布产生: p ( d j ) = N ( μ j , σ j 2 ) p(d_j)=N(\mu_j,\sigma^2_j) p(dj)=N(μjσj2)。工人的能力由正态分布产生: p ( a i ) = N ( μ i , σ i 2 ) p(a_i)=N(\mu_i,\sigma^2_i) p(ai)=N(μiσi2) α α α μ j \mu_j μj σ j 2 \sigma^2_j σj2 μ i \mu_i μi σ i 2 \sigma^2_i σi2是超参数。

2.3 推断

我们使用期望最大化(EM)算法来估计 { z j } \{z_j\} {zj} { d j } \{d_j\} {dj} { a i } \{a_i\} {ai}的最优值。具体地,我们将真答案 Z = { z j } Z= \{z_j\} Z={zj}作为潜变量, Θ = { d j } ∩ { a i } \Theta=\{d_j\}\cap\{a_i\} Θ={dj}{ai}作为模型参数,并且 X = { x i j } X=\{x_{ij}\} X={xij}作为观测值。似然函数在方程(5)中表示。

L ( Θ ; X , Z ) = p ( X , Z ∣ Θ ) = ∏ j ( p ( z j ) ∏ i p ( x i j ∣ z j , d j , a i ) ) (5) L(\Theta;X,Z)=p(X,Z|\Theta)=\prod_j(p(z_j)\prod_i p(x_{ij}|z_j,d_j,a_i))\tag{5} L(Θ;X,Z)=p(X,ZΘ)=j(p(zj)ip(xijzj,dj,ai))(5)

EM算法通过迭代执行E-步骤和M-步骤找到 L L L的最大似然值和 Z Z Z Θ \Theta Θ的最优值。在E-步骤中,我们计算 p j k ( t ) p^{(t)}_{jk} pjk(t),其定义为当前 t t t迭代下的条件概率 p ( z j = k ∣ Θ ( t ) , X ) p(z_j=k|\Theta^{(t)},X) p(zj=kΘ(t),X)

p j k ( t ) = p ( z j = k ) ∏ i p { x i j ∣ z j = k , d j , a i } ∑ k ′ = 1 K p ( z j = k ′ ) ∏ i p ( x i j ∣ z j = k ′ , d j , a i ) (6) p^{(t)}_{jk}=\frac{p(z_j=k)\prod_i p\{x_{ij}|z_j=k,d_j,a_i\}}{\sum_{k'=1}^Kp(z_j=k')\prod_i p(x_{ij}|z_j=k',d_j,a_i)}\tag{6} pjk(t)=k=1Kp(zj=k)ip(xijzj=k,dj,ai)p(zj=k)ip{xijzj=k,dj,ai}(6)

在M-步骤中,我们通过最大化辅助函数 Q ( Θ ∣ Θ ( t ) ) = E Z ∣ Θ ( t ) , X [ ln ⁡ L ( Θ ; X , Z ) ] Q(\Theta|\Theta^{(t)})=E_{Z|\Theta^{(t)},X}[\ln{L(\Theta;X,Z)}] Q(ΘΘ(t))=EZΘ(t),X[lnL(Θ;X,Z)]来重新估计下一次 t + 1 t+1 t+1迭代的模型参数 Θ \Theta Θ。没有直接计算 a i a_i ai d j d_j dj来最大化 Q Q Q的封闭形式,因此我们采用梯度上升法来最大化 Q Q Q Q Q Q的梯度可以通过 Q Q Q相对于 a i a_i ai d j d_j dj的微分来构造:

∂ Q ∂ a i = ∑ j ∑ k = 1 K p j k ( t ) [ δ i j K ( K − 1 ) + 1 ϕ i j − ϕ i j ] (7) \frac{\partial Q}{\partial a_i}=\sum_j \sum_{k=1}^K p^{(t)}_{jk}[\delta_{ij}\frac{K}{(K-1)+\frac{1}{\phi_{ij}}}-\phi_{ij}]\tag{7} aiQ=jk=1Kpjk(t)[δij(K1)+ϕij1Kϕij](7)

∂ Q ∂ d j = ∑ i ∑ k = 1 K p j k ( t ) [ δ i j K ( K − 1 ) + 1 ϕ i j − ϕ i j ] (8) \frac{\partial Q}{\partial d_j}=\sum_i \sum_{k=1}^K p^{(t)}_{jk}[\delta_{ij}\frac{K}{(K-1)+\frac{1}{\phi_{ij}}}-\phi_{ij}]\tag{8} djQ=ik=1Kpjk(t)[δij(K1)+ϕij1Kϕij](8)

在上述推导条件下,EM算法迭代进行E-步骤和M-步骤直到收敛。在EM算法终止后,我们可以用上一次迭代中的参数来估计工人的能力和任务的难度。同时,我们可以通过选择 p j k ( t ) p^{(t)}_{jk} pjk(t)中概率最高的第k个选择来计算估计真值 z j ^ \hat{z_j} zj^,即 z j ^ = arg ⁡ max ⁡ k p j k ( t ) \hat{z_j}=\arg\max_k{p^{(t)}_{jk}} zj^=argmaxkpjk(t)

3 实验

我们在真实世界的数据集Game[1]上进行了实验,以比较CTDGD与最先进的真值推断方法。游戏数据集包含1908个独特的问题,有12个难度等级。37332名工人回答了1891个问题,回答了214.658个问题。成绩是衡量准确度的,准确度是正确推断出的问题数除以问题总数的百分比。

由于篇幅的限制,我们将问题分为简单、中等和困难三类,结果如表1所示。我们在括号中列出每一级的问题数。从表1可以看出,CTDGD的整体性能最好。对于简单的任务,我们可以看到所有的方法都有很高的准确率,即使是多数投票也可以达到90%以上的准确率。但对于中、难任务,所有方法的准确率都低于90%。这是因为许多工人不能正确回答难题。在所有的方法中,CTDGD在偏难任务上的性能最好,这表明CTDGD通过对任务难度和工人的猜测行为进行联合建模的优越性。

表1:实验结果
表1:实验结果

4 结论

在本文中,我们提出了众包真值发现模型猜测和任务难度(CTDGD),它将任务难度、工人的猜测行为和对任务真值的估计能力联合建模。在真实世界数据集上的实验表明,CTDGD比最先进的真值发现方法更有效地估计众包任务的真实性,特别是在任务困难的情况下。

参考文献

[1] Bahadir Ismail Aydin, Yavuz Selim Yilmaz, and Murat Demirbas. 2017. A crowdsourced “Who wants to be a millionaire?” player. Concurrency and Computation: Practice and Experience (2017), e4168.

[2] Alexander Philip Dawid and Allan M Skene. 1979. Maximum likelihood estimation of observer error-rates using the EM algorithm. Applied statistics (1979), 20–28.

[3] Gianluca Demartini, Djellel Eddine Difallah, and Philippe Cudré-Mauroux. 2012. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking. In Proceedings of the 21st international conference on World Wide Web. ACM, 469–478.

[4] Alban Galland, Serge Abiteboul, Amélie Marian, and Pierre Senellart. 2010. Corroborating information from disagreeing views. In Proceedings of the third ACM international conference on Web search and data mining. ACM, 131–140.

[5] Qi Li, Yaliang Li, Jing Gao, Bo Zhao, Wei Fan, and Jiawei Han. 2014. Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation. In Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 1187–1198.

[6] Fenglong Ma, Yaliang Li, Qi Li, Minghui Qiu, Jing Gao, Shi Zhi, Lu Su, Bo Zhao, Heng Ji, and Jiawei Han. 2015. Faitcrowd: Fine grained truth discovery for crowdsourced data aggregation. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 745–754.

[7] Jermaine Marshall, Munira Syed, and Dong Wang. 2016. Hardness-aware truth discovery in social sensing applications. In Distributed Computing in Sensor Systems (DCOSS), 2016 International Conference on. IEEE, 143–152.

[8] Vikas C Raykar, Shipeng Yu, Linda H Zhao, Gerardo Hermosillo Valadez, Charles Florin, Luca Bogoni, and Linda Moy. 2010. Learning from crowds. Journal of Machine Learning Research 11, Apr (2010), 1297–1322.

[9] Jacob Whitehill, Ting-fan Wu, Jacob Bergsma, Javier R Movellan, and Paul L Ruvolo. 2009. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Advances in neural information processing systems. 2035–2043.

[10] Yi Yang, Quan Bai, and Qing Liu. 2018. On the Discovery of Continuous Truth: A Semi-supervised Approach with Partial Ground Truths. In International Conference on Web Information Systems Engineering. Springer, 424–438.

[11] Yi Yang, Quan Bai, and Qing Liu. 2019. A probabilistic model for truth discovery with object correlations. Knowledge-Based Systems 165 (2019), 360–373.

[12] Xiaoxin Yin, Jiawei Han, and S Yu Philip. 2008. Truth discovery with multiple conflicting information providers on the web. IEEE Transactions on Knowledge and Data Engineering 20, 6 (2008), 796–808.

[13] Yudian Zheng, Guoliang Li, Yuanbing Li, Caihua Shan, and Reynold Cheng. 2017. Truth inference in crowdsourcing: Is the problem solved? Proceedings of the VLDB Endowment 10, 5 (2017), 541–552.

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值