众包中真值推断的随机猜测和任务难度建模

最新推荐文章于 2022-11-23 14:11:31 发布

O大叔Tz

最新推荐文章于 2022-11-23 14:11:31 发布

阅读量1.5k

点赞数 3

分类专栏：论文翻译

论文翻译专栏收录该内容

20 篇文章 4 订阅

订阅专栏

Modeling Random Guessing and Task Difficulty for Truth Inference in Crowdsourcing

作者
1 摘要
2 我们的方法
3 实验
4 结论
参考文献

作者

Yi Yang Auckland University of Technology Auckland, New Zealand yi.yang@aut.ac.nz
Quan Bai University of Tasmania Hobart, Australia quan.bai@utas.edu.au
Qing Liu Data61, CSIRO Hobart, Australia q.liu@data61.csiro.au

1 摘要

本文讨论了众包应用中真值推断的挑战。我们提出了一种将任务难度、工人能力和猜测行为联合建模的生成式方法来估计众包任务的真实性，从而使工人的能力和任务的真值得到更准确的估计。实验结果表明，与现有的方法相比，本文提出的方法能更有效地估计众包任务的真值。

关键词：众包，真值推理

在一个众包平台中，例如Amazon Mechanical Turk 1，请求者可以发布她的任务并从众包工人那里获得答案。由于工人的专业技能和能力不同，对同一任务收集到的答案通常是相互冲突的。因此，众包的一个重要任务就是解决众包工人给出的答案之间的冲突，发现每个任务的真实答案（真值）。直觉上，我们应该相信高能力员工的回答。然而，工人的能力和任务的真值通常是先验未知的。因此，真理推断[2,3,5,8,10-12]出现并通过联合估计工人的能力和任务的真值来解决这个问题。

在本文中，我们考虑了众包应用中两个重要的现象来进行众包真值推断。（1）众包任务的难度通常不同。一个能经常正确回答简单问题的员工，并不意味着她对困难问题的回答也值得信赖。因此，通过对任务难度的建模和估计，可以提高真值推断的性能[6,7,9,13]。（2）众包任务大多是多选任务，即每个任务有K个互斥选择，只有一个真实答案。由于众包应用程序中的工人是人，当一个工人不知道任务的真实答案时，她可以选择猜测并提交一个随机答案。

我们的贡献. 基于上述两个现象，我们提出了一种新的方法，即众包真值发现模型猜测和任务难度（Crowdsourced Truth Discovery modeling Guessing and task Difficulty，CTDGD），该方法通过对任务难度、工人能力和猜测行为的联合建模来推断多选任务的真值。具体地说，在概率生成模型中，工人的能力和答案以及任务的真实答案和难度被建模为随机变量。工人的能力和任务的真实答案和难度共同决定了工人是否知道任务的真实答案。如果工人不知道真相，她会从可用的选项中提交一个猜测的答案。通过模拟猜测，可以在不高估的情况下估计工人的能力。通过对任务难度的建模，可以更准确地估计困难任务的真实性。实验已经在真实世界的数据集上进行，并证明CTDGD优于现有的众包真值推断方法。

2 我们的方法

在本节中，我们将介绍CTDGD。

2.1 答案建模

假设有 $m$ 个工人 $\{w_i\}^{m−1}_{i=0}$ ， $n$ 个任务 $\{t_j\}^{n−1}_{j=0}$ 。每个任务都有 $K$ 个互斥选择，索引从 $1$ 到 $K$ 。每个工人 $w_i$ 可以选择一个选择作为任务的 $t_j$ 的答案 $x_{ij}$ 。真值推断的目的是从所观察到的答案 ${x_{ij}\}$ 中找到中每个任务 ${t_j\}$ 的真答案 ${z_j\}$ 。同时，所提出的CTDGD输出估计的工人能力 ${a_i\}$ 和任务难度 ${d_j\}$ 。

我们将每个工人的能力 $a_i$ 和每个任务的难度 $d_j$ 建模为取自（-∞，+∞）的实数。利用logistic函数，工人知道 $t_j$ 的真实答案的概率 $\phi_{ij}$ 为
$\phi_{ij}=\sigma(a_i-d_j)=\frac{1}{1+exp(-(a_i-d_j))}\tag{1}$

其中 $\sigma$ 是logistic函数。从方程式(1)我们可以看出，如果 $a_i-d_j)$ 较大，工人知道 $t_j$ 真相的概率很高。因此，如果一个工人的能力比任务的难度小，那么她更可能对简单的任务给出一个真实的答案，而对一个困难的任务则不太可能正确回答。

如果工人不知道真相，她可以猜测并提交一个随机选择作为她的答案。因此，观察到的答案 ${x_{ij}}$ 的概率为真值 $z_j$ 是：

$p(x_{ij}=k|z_j=k,d_j,a_i)=\phi_{ij}+(1-\phi_{ij})\frac{1}{K}\tag{2}$

我们使用“一枚硬币模型”[13]来模拟工人提交错误答案的情况。因此，对于所有 $k'\neq k$ ，观察到的答案 $x_{ij}$ 错误的概率是：

$p(x_{ij}=k'|z_j=k,d_j,a_i)=(1-\phi_{ij})\frac{1}{K}\tag{3}$

结合方程式(2)和(3)，被观察工人回答的条件概率为：

$p(x_{ij}|z_j=k,d_j,a_i)=(\phi_{ij}+(1-\phi_{ij})\frac{1}{K})^{\delta_{ij}}((1-\phi_{ij})\frac{1}{K})^{1-\delta_{ij}}\tag{4}$

其中 $\delta_{ij}$ 表示克罗内克（Kronecker delta）函数。

2.2 表述

CTDGD是一个生成模型。工人的能力 $a_i$ ，任务的难度 $d_j$ 和真值 $z_j$ 和工人的答案 $x_{ij}$ 被建模为随机变量。这些随机变量之间的关系如图1所示。每个随机变量的生成过程如下所述。

图1：图形模型

真实的答案来自一个范畴分布： $p(z_j)=Cat(K,α)$ 。工人的答案由一个范畴分布产生，概率质量函数在等式(4)中定义。 $d_j$ 由正态分布产生： $p(d_j)=N(\mu_j，\sigma^2_j)$ 。工人的能力由正态分布产生： $p(a_i)=N(\mu_i，\sigma^2_i)$ 。 $α$ 、 $\mu_j$ ， $\sigma^2_j$ ， $\mu_i$ 和 $\sigma^2_i$ 是超参数。

2.3 推断

我们使用期望最大化（EM）算法来估计 ${z_j\}$ 、 ${d_j\}$ 和 ${a_i\}$ 的最优值。具体地，我们将真答案 $Z= \{z_j\}$ 作为潜变量， $\Theta=\{d_j\}\cap\{a_i\}$ 作为模型参数，并且 $X=\{x_{ij}\}$ 作为观测值。似然函数在方程(5)中表示。

$L(\Theta;X,Z)=p(X,Z|\Theta)=\prod_j(p(z_j)\prod_i p(x_{ij}|z_j,d_j,a_i))\tag{5}$

EM算法通过迭代执行E-步骤和M-步骤找到 $L$ 的最大似然值和 $Z$ 和 $\Theta$ 的最优值。在E-步骤中，我们计算 $p^{(t)}_{jk}$ ，其定义为当前 $t$ 迭代下的条件概率 $p(z_j=k|\Theta^{(t)},X)$ ：

$p^{(t)}_{jk}=\frac{p(z_j=k)\prod_i p\{x_{ij}|z_j=k,d_j,a_i\}}{\sum_{k'=1}^Kp(z_j=k')\prod_i p(x_{ij}|z_j=k',d_j,a_i)}\tag{6}$

在M-步骤中，我们通过最大化辅助函数 $Q(\Theta|\Theta^{(t)})=E_{Z|\Theta^{(t)},X}[\ln{L(\Theta;X,Z)}]$ 来重新估计下一次 $t + 1$ 迭代的模型参数 $\Theta$ 。没有直接计算 $a_i$ 和 $d_j$ 来最大化 $Q$ 的封闭形式，因此我们采用梯度上升法来最大化 $Q$ ， $Q$ 的梯度可以通过 $Q$ 相对于 $a_i$ 和 $d_j$ 的微分来构造：

$\frac{\partial Q}{\partial a_i}=\sum_j \sum_{k=1}^K p^{(t)}_{jk}[\delta_{ij}\frac{K}{(K-1)+\frac{1}{\phi_{ij}}}-\phi_{ij}]\tag{7}$

$\frac{\partial Q}{\partial d_j}=\sum_i \sum_{k=1}^K p^{(t)}_{jk}[\delta_{ij}\frac{K}{(K-1)+\frac{1}{\phi_{ij}}}-\phi_{ij}]\tag{8}$

在上述推导条件下，EM算法迭代进行E-步骤和M-步骤直到收敛。在EM算法终止后，我们可以用上一次迭代中的参数来估计工人的能力和任务的难度。同时，我们可以通过选择 $p^{(t)}_{jk}$ 中概率最高的第k个选择来计算估计真值 $\hat{z_j}$ ，即 $\hat{z_j}=\arg\max_k{p^{(t)}_{jk}}$ 。

3 实验

我们在真实世界的数据集Game[1]上进行了实验，以比较CTDGD与最先进的真值推断方法。游戏数据集包含1908个独特的问题，有12个难度等级。37332名工人回答了1891个问题，回答了214.658个问题。成绩是衡量准确度的，准确度是正确推断出的问题数除以问题总数的百分比。

由于篇幅的限制，我们将问题分为简单、中等和困难三类，结果如表1所示。我们在括号中列出每一级的问题数。从表1可以看出，CTDGD的整体性能最好。对于简单的任务，我们可以看到所有的方法都有很高的准确率，即使是多数投票也可以达到90%以上的准确率。但对于中、难任务，所有方法的准确率都低于90%。这是因为许多工人不能正确回答难题。在所有的方法中，CTDGD在偏难任务上的性能最好，这表明CTDGD通过对任务难度和工人的猜测行为进行联合建模的优越性。

表1：实验结果

4 结论

在本文中，我们提出了众包真值发现模型猜测和任务难度（CTDGD），它将任务难度、工人的猜测行为和对任务真值的估计能力联合建模。在真实世界数据集上的实验表明，CTDGD比最先进的真值发现方法更有效地估计众包任务的真实性，特别是在任务困难的情况下。

参考文献

[1] Bahadir Ismail Aydin, Yavuz Selim Yilmaz, and Murat Demirbas. 2017. A crowdsourced “Who wants to be a millionaire?” player. Concurrency and Computation: Practice and Experience (2017), e4168.

[2] Alexander Philip Dawid and Allan M Skene. 1979. Maximum likelihood estimation of observer error-rates using the EM algorithm. Applied statistics (1979), 20–28.

[3] Gianluca Demartini, Djellel Eddine Difallah, and Philippe Cudré-Mauroux. 2012. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking. In Proceedings of the 21st international conference on World Wide Web. ACM, 469–478.

[4] Alban Galland, Serge Abiteboul, Amélie Marian, and Pierre Senellart. 2010. Corroborating information from disagreeing views. In Proceedings of the third ACM international conference on Web search and data mining. ACM, 131–140.

[5] Qi Li, Yaliang Li, Jing Gao, Bo Zhao, Wei Fan, and Jiawei Han. 2014. Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation. In Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 1187–1198.

[6] Fenglong Ma, Yaliang Li, Qi Li, Minghui Qiu, Jing Gao, Shi Zhi, Lu Su, Bo Zhao, Heng Ji, and Jiawei Han. 2015. Faitcrowd: Fine grained truth discovery for crowdsourced data aggregation. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 745–754.

[7] Jermaine Marshall, Munira Syed, and Dong Wang. 2016. Hardness-aware truth discovery in social sensing applications. In Distributed Computing in Sensor Systems (DCOSS), 2016 International Conference on. IEEE, 143–152.

[8] Vikas C Raykar, Shipeng Yu, Linda H Zhao, Gerardo Hermosillo Valadez, Charles Florin, Luca Bogoni, and Linda Moy. 2010. Learning from crowds. Journal of Machine Learning Research 11, Apr (2010), 1297–1322.

[9] Jacob Whitehill, Ting-fan Wu, Jacob Bergsma, Javier R Movellan, and Paul L Ruvolo. 2009. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Advances in neural information processing systems. 2035–2043.

[10] Yi Yang, Quan Bai, and Qing Liu. 2018. On the Discovery of Continuous Truth: A Semi-supervised Approach with Partial Ground Truths. In International Conference on Web Information Systems Engineering. Springer, 424–438.

[11] Yi Yang, Quan Bai, and Qing Liu. 2019. A probabilistic model for truth discovery with object correlations. Knowledge-Based Systems 165 (2019), 360–373.

[12] Xiaoxin Yin, Jiawei Han, and S Yu Philip. 2008. Truth discovery with multiple conflicting information providers on the web. IEEE Transactions on Knowledge and Data Engineering 20, 6 (2008), 796–808.

[13] Yudian Zheng, Guoliang Li, Yuanbing Li, Caihua Shan, and Reynold Cheng. 2017. Truth inference in crowdsourcing: Is the problem solved? Proceedings of the VLDB Endowment 10, 5 (2017), 541–552.

O大叔Tz

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
众包中真值推断的随机猜测和任务难度建模

Modeling Random Guessing and Task Difficulty for Truth Inference in Crowdsourcing作者1 摘要2 我们的方法2.1 答案建模2.2 表述2.3 推断3 实验4 结论参考文献作者Yi Yang Auckland University of Technology Auckland, New Zealand yi.yang@aut.ac.nzQuan Bai University of Tasmania Hobart, Aust
复制链接

扫一扫

专栏目录