所有被浪费的时间:论众包中的放弃任务

作者

Lei Han+, Kevin Roitero∗, Ujwal Gadiraju⋄, Cristina Sarasua‡, Alessandro Checco▽, Eddy Maddalena△, and Gianluca Demartini+ +University of Queensland, Australia. ∗University of Udine, Italy. ⋄L3S Research Center, Germany. ‡University of Zurich, Switzerland. ▽University of Sheffield, UK. △University of Southampton, UK.

摘要

众包已经成为一种标准的方法来收集人工标注的数据,比如大规模的相关性判断。在AmazonTurk或FigureEight这样的众包平台上,众包工人根据任务奖励和请求者声誉等不同维度选择要处理的任务。然后,请求者会收到工人的判断,这些工人是自己选择进入任务并成功完成任务的。然而,一些众包工人预览任务,开始处理它们,在没有最终提交工作的情况下达到任务完成的不同阶段。这种行为会导致没有回报的努力,而请求者却看不到这些努力。

本文首先对任务放弃现象、工人预习或开始作业并决定不完成任务的行为进行了调查。我们遵循三个方法,包括

  1. 通过对不同众包平台的调查,调查任务放弃的普遍性和原因;
  2. 对大规模相关性判断实验中收集的日志进行数据驱动分析,
  3. 控制实验,测量不同维度对放弃的影响。

结果表明,任务放弃是一种广泛存在的现象。这除了会造成相当多的人力浪费外,还会对工人的每小时工资产生重要影响,因为他们不会因没有完成的任务而得到奖励完成。我们还展示了任务放弃如何对收集的数据的使用产生重大影响(例如,对IR系统的评估)

1 介绍

众包已经成为一种广泛传播的技术,可以收集大量的人工标注的数据。在像Amazon MTurk(AMT)和FigureEight(F8)这样的付费微任务众包平台中,最大的挑战之一在于收集的数据质量低下。为了解决这个问题,以前的研究已经研究了不同的方法,从通过复杂的答案聚合模型进行真值推理的方法[7,41]到分析群组工人,以便为他们分配他们可以很好地执行的任务[5,9]。在像AMT这样的拉式众包平台中,影响质量的另一个方面是选择偏差,当工人决定从所有可用的微任务列表中处理某些微任务(也称为人类智能任务或HITs)时引入选择偏差。因此,HITs是按要求数量的工人先到先得的原则完成的。然而,一些工人可能会预览甚至开始工作一个HIT,然后决定在它完成之前放弃它。然后,其他愿意完成这些工作的工人可能会捡起被遗弃的HIT。这可能会影响通过众包方式收集的数据的质量。请注意,当请求者运行一批HIT时,他们会从完成HIT的所有工人那里收到答案,而不是从那些开始并将HIT返回到平台的工人那里。这种放弃任务的行为在目前的文献中还没有被研究过。

针对这一差距,我们提出了第一个全面研究众包中任务放弃现象的工作。本文的目的是了解放弃,量化其发生,并分析其对质量相关结果的影响。为此,我们提出了三种不同类型的研究结果:

  1. 了解不同付费微任务众包平台中任务放弃的普遍性和原因;
  2. 在大规模众包相关性判断项目中收集的“野外”任务放弃数据分析,涉及超过7K个HIT;
  3. 对照实验,评估个体任务属性对任务放弃的影响。我们的发现表明:
  • 任务放弃现象非常严重,占已完成任务的164%(即每提交一个任务,我们观察到1.64个已放弃任务)。关于工人,在我们的大规模实验中,我们观察到1K名不同的工人完成了HIT,4K名不同的工人开始但后来被抛弃。放弃工人所投入的全部工作时间占616小时,相当于约3.5个月的全职工人。
  • F8上的工人放弃任务的频率相对高于AMT上的工人。大多数工人在快速评估完成任务所需的努力后,很早就放弃了任务。然而,F8上的几个工人在完成了一半以上的预期工作后放弃了任务。
  • 放弃任务的工人所做的工作质量明显低于完成任务的工人所做的工作质量。
  • 影响任务放弃的重要因素有(按重要性顺序列出):小时工资、评估完成任务所需的工作量以及HIT设计中使用的质量检查。
  • 任务放弃对IR系统的众包评价有显著影响。

2 相关工作

众包最近已经成为一种基于网络的模式,它利用分布式人类智能来解决高度复杂的数据问题[6,13]。因此,许多跨学科的研究项目采用了这种方法来解决超出机器智能能力的数据问题[8,18,43]。将众包应用于数据问题的主要挑战之一是众包数据的质量[14,27]。现有的工作已经提出了新的方法来提高众包的质量,通过集中于提供的答案和众包工人的特点。Dow等人[11] 声称向工人提供反馈可以提高他们的表现以及参与其他任务的动机。Kazai等人[23]发现工人的个人资料会显著影响任务的准确性。Li等人[30]提出了一个针对众包的框架,以提高准确性,同时降低预算成本。McDonnell等人[34]展示了向众包工人询问所提供答案的解释如何隐式地帮助提高所收集数据的质量。同时,对众包数据的可靠性进行了研究。例如,Ipeirotis等人[21]提供了区分真实错误和个人系统性偏差的解决方案,Eickhoff[12]研究了人群中认知偏差对IR评估的影响。在[16,22]中也讨论了检测恶意工人。然而,这些工作涉及的是众包工人提交给众包平台的数据质量。这与我们在本文中的重点形成了鲜明的对比;我们阐明了由于放弃任务而由工人执行但未提交的工作。我们研究从放弃任务的工人那里收集到的行为数据和反应,直到他们决定放弃一个给定的HIT。

网络用户行为研究旨在了解网络用户的关注焦点和兴趣。在过去的几年里,一些流行的用户参与度指标被提出。驻留时间是一个被广泛采用的简单的页面级指标[1,4,25],它可以提供用户参与网页的信息,但是它不能捕捉详细的用户行为,例如发现哪个HTML元素最吸引用户[29]。

在我们的工作中,我们收集和分析行为数据,以研究任务放弃现象。低水平的任务交互数据以前被用于预测众包工作的准确性,作为其他质量保证方法(如黄金问题)的替代。早期关于众包工人行为数据的研究包括[38],其中作者使用行为轨迹以监督的方式预测众包工人回答的质量。最近,在文献[24]中,作者展示了如何将群体行为与专家行为相比较,以此来衡量众包工作质量,并自动检测低绩效工人,而不需要昂贵的黄金问题。在[17]中,作者也使用行为数据来预测工人的准确性,并更好地汇总他们的答案。

放弃是一种经常发生的在线行为,被定义为不想继续进行他们正在访问的网页所提供的活动和内容的Web用户。如[10]所示,这种现象可能发生在用户对内容满意时(好的放弃),例如,当搜索引擎结果页[3]中提供了相关的直接答案时,或者当用户对他们访问过的页提供的信息不满意时(坏的放弃)。当用户的信息需求已经得到满足或不再能够满足时,通常会观察到放弃。众包中的放弃主要是从批量的角度来研究的(即,同一类型的HIT,工人是按顺序完成的)。例如,在[28]中提出并评估了扩展群组工作会话的方法。相比之下,我们关注的是单个任务的放弃,而不是成批退出,从而专注于完成但没有回报的工作。在众包市场中,只有有限的研究旨在了解用户放弃HIT的后果。已有的一些关于满意度的研究试图从不同的维度来分析用户交互以改善他们的搜索体验,例如[20,25,35]。与他们不同的是,我们关注的是众包工人,他们在完成任务前放弃,目的是通过检查他们在执行任务时的互动和行为,了解在众包平台上放弃的任务。

3 研究一:任务放弃的发生率及原因

为了了解人群中任务放弃现象的普遍性,我们首先对两个流行的付费微任务众包平台Amazon MTurk(AMT)和FigureEight(F8)进行了调查,收集了每个平台上100个不同的网络运营商的反馈,并进行了定量和定性相结合的分析,以了解影响众包中任务放弃的感知因素。

3.1 调查设计和调查结果

3.1.1 调查设计

我们首先让工人回答一些关于人口统计和他们经验的一般背景问题。接下来,我们收集了他们在开始任务后放弃任务的频率的响应,采用李克特五量表法,从1:几乎从不到5:几乎总是。然后,我们以李克特五量表法(从1:无影响到5:高影响)询问工人,他们认为各种因素通常在多大程度上影响他们放弃任务的决定。这些因素包括任务难度、完成时间、金钱奖励、请求者声誉、任务类型、工人的先前经验、任务清晰度、内容类型(例如无聊、明确或令人不安)和缺乏参与。在一个开放式文本框中,我们还鼓励工人在他们的经历中揭示其他可能影响任务放弃的因素。工人们还被问及他们最常放弃的任务类型以及为什么放弃。

3.1.2 任务放弃的频率

如图1所示,我们发现使用F8和AMT的工人中有相当一部分经常放弃任务。我们调查的f8工人中,近60%的人声称放弃5分制中至少3级的工作,而AMT工人中这一比例超过22%。采用双尾T检验,我们发现F8名工人(M=2.66,SD=0.89)声称放弃任务的频率显著高于AMT工人(M=2.05,SD=0.77);T(184)=24.90,p<0.001。由于这个原因,我们将第4节中介绍的数据驱动分析集中在F8平台上。
图1:(左上)Amazon MTurk(AMT)和FigureEight(F8)上的工人感知到的任务放弃频率,以及(剩余子图)影响这两个平台上任务放弃的各种因素的影响
图1:(左上)Amazon MTurk(AMT)和FigureEight(F8)上的工人感知到的任务放弃频率,以及(剩余子图)影响这两个平台上任务放弃的各种因素的影响。

3.1.3 放弃前的过程

我们发现,F8和AMT上的大多数工人要么在预览任务并阅读说明之后,要么在完成不到一半的任务之后就放弃了任务(见表1)。与AMT相比,F8上有更大比例的工人在完成一半或全部任务后放弃任务。在这两个平台上,只有一小部分工人声称他们通常不会放弃任务。
表1:F8放弃前工人的任务进度与AMT的比较
表1:F8放弃前工人的任务进度与AMT的比较

3.1.4 不同因素对任务放弃的影响

我们在F8和AMT上分析了影响工人放弃任务决策的不同因素。我们的发现如图1所示。与F8工人中的17%相比,近65%的AMT工人认为任务完成时间对他们放弃任务有很大影响。同样,大约71%的AMT工人认为金钱奖励对他们的任务放弃有很大的影响,而F8工人的这一比例为44%。F8和AMT工人都声称任务参与、请求者信誉和内容类型对他们放弃任务的影响平平。F8组被试认为任务清晰度、任务难度、任务类型和既往经验对任务放弃的影响大于AMT组(AMT组也发现这些因素对任务放弃的影响较大)。表2根据F8和AMT对任务放弃的感知影响程度列出了这些因素的排名。
表2:各种因素对F8和AMT任务放弃的影响程度(平均1-5分)
表2:各种因素对F8和AMT任务放弃的影响程度(平均1-5分)

3.2 工人备注

我们分析了F8和AMT工人的开放式回答,他们为什么倾向于使用迭代编码过程来放弃任务[2,40]。在此过程中,我们手动遍历每个开放式回答并对回答的主题进行分类。例如,AMT上的一个工人回答说“任务太复杂或工资数字太低”(sic)。这种反应分为任务难度和奖励两个主题。当新主题从工作回答中出现时,我们迭代地创建它们,并重新编码所有回答以确保准确分类。根据我们的分析,确定的主要主题总结如下。一些F8和AMT研究者描述了多种因素对任务放弃的影响。请注意,以下分析仅基于开放式回答,不包括在李克特量表法上收集并在第3.1节中讨论的回答。

  1. 时间限制与要求。默认情况下,在F8上,工人必须在30分钟内完成任务。根据任务设计和给定批中可用的任务数,工人可以将此视为限制性的。劳动者认为不能在规定期限内完成任务的,放弃任务。10.64%的F8工人认为任务完成时间是导致任务放弃的一个因素。相比之下,62.5%的AMT工人将完成时间作为一个因素,尽管他们对完成时间没有默认的限制。对于AMT,时间限制由请求者强制执行。与F8工人不同,AMT工人提到他们放弃了需要大量时间才能完成的任务。
  2. 主观任务。由于请求者对其回答的评估方式存在不确定性,因此工人避免主观任务。近32%的F8工人认为任务的主观性质和对其准确性的怀疑影响了任务的放弃。相比之下,只有1%的AMT工人承认任务主观性是一个影响因素。
  3. 糟糕的指令。超过40%的F8工人和24%的AMT工人认为指令质量差,通常会影响他们放弃任务的决定。
  4. 保持准确性。工人的目标是保持高水平的任务准确性,以建立良好的声誉,给自己最好的机会,以符合资格和完成更多的未来任务。众所周知,一些众包工人将众包微任务作为赚取主要收入来源的一种手段[19,37]。近28%的F8工人和5%以上的AMT工人认为,他们的整体准确性可能受到威胁,从而对任务放弃产生影响。
  5. 金钱奖励。近30%的F8工人和62.5%的AMT工人认为,与预期工作相关的低工资是导致他们放弃工作的一个因素。由于工人的目标是使他们的收入最大化,所以那些只需付出很少的努力就可以阻止工人参与其中。近14%的AMT工人在回答中直接提到了这种不成比例的“努力”。
  6. 公平。几乎20%的F8工人和21%的AMT工人认为,在一些因素(工资、时间或评估方式)上缺乏公平感的任务会影响他们放弃此类任务的决定。
  7. 任务难度。超过23%的F8工人和超过10%的AMT工人表示,任务难度影响了他们放弃任务的决定。
  8. 语言能力。只有不到11%的F8工人声称,当他们觉得语言要求过高时,他们会放弃工作。与此形成鲜明对比的是,没有一位AMT工人认为语言能力是一个影响因素。
  9. 其他因素。一小部分F8工人(低于7%)和AMT工人(接近8%)提到了他们认为会影响他们放弃任务的决定的不同方面;涉及多个阶段的复杂任务工作流、任务的趣味性以及其他贡献者(例如,在工人论坛)对给定任务的意见。

3.3 讨论

本研究的新发现揭示了影响F8和AMT众包任务中任务放弃的不同因素。两个平台的工人都频繁地放弃工作,这足以影响市场动态,使这种现象值得调查工人在AMT中,放弃任务的主要原因是相对于任务完成的预期时间而言,不相称的金钱回报。相比之下,F8上的工人主要是因为缺乏清晰度、相关奖励和感知任务高难度而放弃任务。F8上的工人认为任务放弃的频率更高,并且他们倾向于在进行了更长的时间(超过一半的任务,整个任务)后放弃任务。基于此,我们在F8平台上进行了大规模的众包关联判断实验,进一步研究了任务放弃问题。

4 研究二:野外的放弃

在这一部分中,我们提出了一个大范围的F8相关判断任务的发现,在此期间收集任务放弃日志。我们在这里讨论两个主要的研究问题。

  • RQ1:与完成HIT测试的工人(S组)相比,放弃HIT测试的工人(A组)的表现如何?
  • RQ2:在放弃HIT前,A组的工人完成了多少工作?

4.1 众包数据收集

4.1.1 任务设计。

我们按照[32]和[36]的设计进行了一个大型相关性评估实验。这些HIT向工人展示了一个主题和从TREC-8特别集合中获取的八个文档[42]。每次HIT的主题都是固定的,而文档是按八个连续的页面排列的,工人可以向后访问和前进。工人他们被要求以四个级别(不相关、略微相关、相关或高度相关)来判断每个文档与给定主题的相关性。此外,对于每一个相关性评估,都需要一个文本证明[34]。我们实施了三项质量检查:

  1. 一个初始测试问题,以确保工人理解该主题;
  2. 检查工人在8份文档中的至少6份文档中花费了至少20秒;
  3. 8份文档中有2份是由专家手工选择的金标准编辑判断,其中一份文档明显与主题(N)不相关和另一个主题(H)明确相关。我们检查了工人对这些文档的判断是否一致(H>N)。

这三项检查在文档序列的末尾执行。一旦这些检查不合格,工人们就可以回去改变他们的判断,最多三次。评估每个文档所花费的时间是通过不同的尝试累积起来的,以达到所需的20秒。

总的来说,我们收集了4269个文档的18个主题和7067个HIT的判断。这些判断已经由154个独立的工人完成,因为我们允许他们参与多个主题(但每个主题只有一个HIT)。同时,我们观察了4102名在实验中放弃HIT的工人。总的来说,11563次HIT被放弃,7067次HIT被完成。

4.1.2 放弃日志

众包平台不允许获取关于工人未正确完成和提交的任务的信息。这种限制会导致任务放弃前所做的工作丢失。由于本文旨在研究任务放弃,因此我们通过记录工人在任务中执行的每个高级操作,实现了一种绕过这种限制的解决方案。为了使日志记录成为可能,我们设置了一个外部服务器来接收来自HIT中嵌入的JavaScript代码的请求。我们记录以下高级操作:任务开始;工人单击知情同意按钮;工人回答初始主题理解问题并显示第一个文档;工人更改页面(向后或向前);工人提供相关判断;一个或多个质量检查失败;所有质量检查通过,任务结束成功。另外,我们收集了浏览器的HTTP用户代理string。

4.2 方法论

使用上述任务设计和日志记录基础设施,我们收集了两组人群的操作日志和相关性判断:通过完成HIT提交判断的人群(S组)和开始HIT但在完成前放弃的人群(A组)。我们从三个角度对我们的数据集进行了检查:

  1. 为了回答RQ1,所有工人执行判断的质量;
  2. 他们判断了多少文档;
  3. 他们在HIT中花费了多少时间,来回答RQ2。

为了衡量工人提供判断的质量,我们将其与Sormunen[39]在4级量表上进行的真值编辑评估进行了比较。因此,我们将来自S和A的众包工人判断与来自专家的判断通过一致性度量进行比较。为了衡量众包工人和专家之间的一致性,我们使用Krippendorff的α系数[26],因为它能够适应缺失的值和不同数量的判断。该测量假设值从-1(完全不一致)到0(一致性相当于随机评估)到1(完全一致)。由于工人提供的标签可能较少,因此我们仅对每个HIT中八个文档的子集(工人和专家的判断都可用)进行一致性度量。对于每一个HIT,我们都计算S和A工人做出的判断的质量。然后,我们对同一主题的HIT平均一致得分。

4.3 结果

4.3.1 质量

S组与专家的平均α符合率为0.74,A组为0.33。图2显示了S组和A组在主题上α值的差异,主题按S组工人平均α值的降序排列。很明显,在所有不同的主题中,A组的平均判断质量都低于S组。A组各主题的最高平均α值为0.53。采用Wilcoxon符号秩和检验比较A组和S组的质量,我们发现在所有题目上的差异有统计学意义(p<0.05)。
图2:比较S和A工人对主题的判断质量。主题按S的平均值递减排序
图2:比较S和A工人对主题的判断质量。主题按S的平均值递减排序

4.3.2 任务投入和放弃率。

由于我们在每个HIT中使用了8个文档,并且允许工人在完成提交之前不通过质量检查的情况下最多启动3次相同的任务,因此工人可能看到的最大问题数为24个。在回答这8到24个问题时,工人可以随时放弃这项任务问题。我们将每个判断定义为HIT的一步。在步骤1之前,每个工人都必须单击“开始按钮”(步骤-1),然后显示任务说明(步骤0)。

在观察到的11563个放弃案例中,有三分之二的案例中,工人在没有任何文档(即步骤1或0)的情况下放弃了任务。虽然观察到的遗弃总量很大,但大部分都发生在HIT的早期。这表明,许多工人阅读说明或预览任务本身,以便根据分配的奖励快速评估完成任务所需的努力,决定是否在其中投入时间。这与研究一中关于工人放弃任务的原因的开放式回答是一致的。

表3显示了每一步骤后在不同主题上观察到的放弃的绝对数量,以及相对于主题。我们将步骤9合并到24,并使用步骤8+指示在第一次完全判断尝试之后发生的放弃。我们可以看到,平均67%的放弃发生在判断第一个文档之前(步骤0),76%发生在完成判断第一个文档之前(步骤1)。由于质量检查不合格,另外10%的放弃发生在对所有8份文档(步骤8)进行判断之后。另一个我们可以观察到的是,放弃行为可能因话题而异。例如,主题403有超过三分之一的工人达到了步骤8+,显示了如何判断此主题的文档特别困难。这与其他研究一致,在这些研究中,本主题的文档是通过众包的方式来判断的(例如,[33]中的图6)。
表3:每一个主题细分步骤后观察到的放弃的绝对数量和百分比
表3:每一个主题细分步骤后观察到的放弃的绝对数量和百分比

图3显示了3860名工人放弃的分布,这些工人至少进行了一次相关判断,显示了在给定步骤后放弃的总人口比例。我们可以看到,第一步和第八步之后发生的放弃是最大的。这两个步骤代表了工人在判断第一份文档后放弃,以及那些由于未通过第一次质量检查而在HIT结束时放弃。第二个最大的放弃点发生在第24步和第16步之后(即分别在第三次和第二次完全尝试结束时)。这表明存在两个重要的放弃点,即在HIT的第一个或最后一个问题之后。

图3:放弃的相对频率(对数比例)超过已完成的判断数
图3:放弃的相对频率(对数比例)超过已完成的判断数

第一次判断(步骤1)后的放弃可能是由工人对任务努力/回报率的评估引起的。但是,如果工人决定在第一个文档之后继续执行任务,他们通常会以完成并提交整个HIT为目标。在第1步和第8步之后放弃的HIT数分别为1105和1106,而在另外的1049个HIT中(9.1%的HIT)工人再次执行相同的判断(第8步+)。在S组工人中,在1366个HIT中(占S组HIT的19.3%)工人在提交他们的判断。工人在第24步之后放弃的人已经达到了我们的HIT设计所允许的最大尝试次数。

4.3.3 质量高于步骤

下一步,我们将比较组S和A组的工人在HIT中给定步骤之前提供的判断的质量。对于给定的步骤,我们将该步骤之前S组工人提供的判断质量与该步骤中放弃的A工人提供的判断质量进行比较。

图4显示了S组和A组步骤的判断质量。我们可以看出,不断提交的工人提供的质量标签要高于放弃的工人。对于提交的人来说,平均质量从第1步稳步上升到第7步,这表明学习效果是积极的;工人在完成任务的过程中习惯了这项任务,并提供了更好的判断。对于那些放弃的人,平均质量从第1步增加到第4步,然后下降到第8步,显示他们在整个命中过程中的投入减少。除第2步和第4步外,每一步工人的判断质量都与S组工人的有显著性差异(Wilcoxon符号秩检验p<0.05)。在A组中多次开工的工人提供最低的平均质量判断。

图4:S和A组工人对步骤判断的质量
图4:S和A组工人对步骤判断的质量

4.3.4判断时间

为了了解工人在每个判断上花费了多少时间,我们使用工人浏览器提供的每个日志操作的时间戳。我们分析了每次点击的总时间;

  1. 阅读说明的时间,以及
  2. 判断文档的时间。

图5显示了A和S组工人在阅读说明(左)和判断文档(右)上花费的时间的分布。这两种分布都是长尾分布,许多工人很少花时间在指导和判断上。在A组和S组中,阅读说明的时间超过1200秒(或20分钟)的工人人数都不到1%,每个组中,判断一份文档的时间超过7分钟的工人不到1%。

图5:为S和A组工人阅读说明(左)和判断每个文档(右)所花的时间
图5:为S和A组工人阅读说明(左)和判断每个文档(右)所花的时间

两组的阅读时间分布非常相似。这就告诉我们,这两个小组处理这项任务的方式是相似的。相反,这两组在判断每个文档的平均时间上显示出差异。那些放弃的人倾向于花更少的时间来判断文档(这也影响了他们的判断质量,如下所示)。与S组(15.02%)相比,A组(40.39%)的工人花在评判一份文档上的时间少于半分钟的比例更高。A组判断时间在0.5~3.5min的工人比例(55.17%)低于S组(84.28%)。这一观察结果表明,尽管两组工人的教学阅读模式相似,但他们在判断文档方面所花的时间却不同。接下来,我们将更深入地研究判断时间对判断质量的影响。

4.3.5时间对质量的影响

图6显示,判断质量在某种程度上受S组花费在每个文档上的时间的影响,而A组的影响更大。对于A组来说,平均质量(通过与专家判断的α一致性来衡量)随着花在文档上的时间的增加,从大约0.2提高到超过0.6。相比之下,S组工人的平均判断时间小于3.5分钟,平均判断质量介于0.72和0.77之间。然而,当花费3.5分钟以上判断两组的文档时,质量下降。这与之前的研究一致,研究表明判断时间的长短可能导致较低质量的判断[31]。

图6:与每个判断花费的时间相比的判断质量
图6:与每个判断花费的时间相比的判断质量

表4显示了两组的质量分数随平均判断时间的变化。对于那些在文档上花费不到半分钟的人,只有4.56%的工人和30.83%的工人提供了低质量(α≤0.66)的回答。这表明,尽管提交任务的速度更快,但与放弃任务的工人相比,提交任务的工人能够产生更高质量的判断。

表4:S(上)组和A(下)组中具有给定质量水平和平均评判时间的工人比例
表4:S(上)组和A(下)组中具有给定质量水平和平均评判时间的工人比例

高质量(α>0.66)贡献者,平均判断时间在0.5~1.5min之间,分别占S组和A组的38.82%和13.56%。总之,与A组工人相比,S组工人平均花在每份文档上的时间更多,并提供更好的质量判断,这加强了这样一个结论:如果工人花费更少的时间并提供低质量的判断,那么放弃的可能性也更大,因为任务中存在质量检查。

总的来说,近三分之二的被遗弃工人提供了低质量(α≤0.66)的判断。相比之下,70%以上的被调查者提供的判断具有较高的一致性得分(α>0.66)。

4.4 任务放弃对众包IR系统评价的影响

最后,我们旨在了解任务放弃对信息检索(Information Retrieval,IR)系统众包评估的影响。为此,我们使用提交HIT的工人做出的判断(即标准众包IR评估方法)和工人放弃任务前做出的判断,生成两种不同的相关性评估,这些评估是通过多数投票聚合获得的。这样我们就得到了三组主题/文档判断(S、A和TREC的二元编辑判断)。图7显示了由三个相关性判断集生成的IR系统排名之间的三种不同成对比较。我们可以看到:

  1. S组工人提供的判断产生的IR系统排名与通过编辑判断获得的结果更为相似,而不是工人判断(Kendallτ为0.75 vs 0.68,如图7a和7b所示),特别是在最有效的系统上;、
  2. S和A组判断产生的IR系统排名相似(τ=0.73),但是他们倾向于在顶级和中级系统上存在分歧(图7c)。

图7:NDCG@10个根据不同组的判断计算出的值
图7:NDCG@10个根据不同组的判断计算出的值

5 研究三:奖励、任务长度和质量检查的效果

为了给未来的众包实验设计提供信息,并确定我们如何干预放弃的人群,我们研究了个体任务属性对任务放弃的影响。根据第3节和第4节的结果,我们分析了影响任务放弃的三个因素:

  1. 奖励,
  2. 任务长度(即,一次点击要标记的文档数)和
  3. 质量检查的存在。

因此,我们运行一组受控实验,每次改变一个条件。

5.1 实验设计

我们设计了一批4级的相关判断HIT,并将其部署为一次改变一个自变量(即奖励、任务长度和质量检查)。我们从TREC-8特别跟踪中选择文档,以便其中一半与给定主题相关,另一半与TREC评估员不相关。为了减少其他因素对结果的影响,我们从同一个TREC主题(即418)和同一个语料库(即LA Times)中选择了长度大致相同的文档,在受试者之间进行了以下条件的实验(即工人只能参与其中一个条件):

  • 基线:HIT的长度固定为6个文档,我们奖励工人0.30美元。我们不使用任何质量检查。

  • 奖励:与基线HIT相同,但奖励为0.10美元。

  • 任务长度:HIT的长度是3个文档,我们奖励工人0.15美元(即,我们将每个判断的奖励固定为0.05美元)。

  • 质量检查:除了基线命中之外,我们还包括两个质量检查;我们首先提出一个主题理解问题,然后使用两个手动选择的黄金文档,一个是高度相关的(H)文档,另一个是明显不相关的(N)文档,我们需要一致的判断(即H的判断应高于N)。

对于每一种情况,我们在F8平台上发布了100个HIT,雇佣了2级工人。工作人员可以在文档之间来回导航到HIT中,但必须对每个文档表达相关性判断。

针对放弃组,我们分析了这些因素对与放弃行为相关的三个因变量的影响:

  1. 工作人员完成的会话数
  2. 显示工作人员完成任务的步骤数
  3. 每个会话的平均时间。

为了研究这些因素对个体和中间人的影响,我们分别对会话数、步数和每次会话的时间进行了三个独立的双向(奖励和任务长度)协方差6(ANCOVA)分析。为了避免多重共线性,我们将截距设置为零:这是一个自然的选择,因为零任务长度通过构造意味着零的因变量。为了研究质量检查的效果,我们分别对相同的因变量进行了三次单向方差分析。然后我们对这组测试进行了Bonferroni校正。

5.2 结果

首先,我们观察到放弃与奖励(从基线到奖励的47.37%到51.70%)和任务长度(从基线到任务长度的47.37%到52.15%)成反比。在质量检查方面,当我们启动它们时,更多的人放弃(从47.37%到91.54%)。

奖励和任务长度对中大效应量(ω2>0.05)的会话数和步数(也包括步数)有显著的统计学意义(p<0.05,经Bonferroni校正后α=0.0083)。质量检查对会话数的影响在统计学上是显著的,影响大小较大(ω2>0.06),对步骤数和每个会话所花费的平均时间都有影响。

表5:带奖励和任务长度因素的双向ANCOVA和带质量控制因素的单向ANOVA

6 讨论和结论

本文研究了众包中未被研究的任务放弃现象,即在众包中开始一个任务但没有完成它,从而未能提交他们的回答。因此,平台或请求者不会捕获他们的回答,因此工人不会获得任何金钱补偿。我们进行了三项不同的研究:

  1. 人群调查,了解工人对放弃的感知;
  2. 大规模的众包相关判断实验,了解放弃的不同维度;
  3. 对影响放弃的因素进行控制实验。

我们的主要研究结果表明:

  1. 如果认为奖励不值得付出努力,员工倾向于提前放弃任务;
  2. 总体而言,任务放弃是一种普遍现象,但大多数都发生在任务的早期;
  3. 放弃的工人提供的相关性判断的质量比完成任务的工人差
  4. 放弃的工人也比完成任务的工人提供更快的判断。然而,我们也观察到,完成工作的工人做出快速且高质量的判断;
  5. 完成工作的工人做出的判断所产生的IR评估结果与放弃工作的员工做出的判断相比,更类似于通过专家判断获得的IR评估结果;
  6. HIT中的质量检查对任务放弃的影响最大。

这些结果对使用众包进行信息检索评估具有很强的指导意义。首先,众包中的质量检查已经被证明是隐式地选择能够提供高质量判断的人群样本的必要工具。另一方面,这也带来了不希望看到的结果,那就是那些被自我选择进入的工人群体抛弃的付出和努力。

我们还观察到,行为日志可能被用作请求者“免费”收集数据的工具,而不会奖励工人并迫使他们放弃任务。然而,正如我们的研究结果所表明的那样,这种方法将导致低质量的数据,因此不能用于反对工人和不平衡众包生态系统。我们今后的工作将着重于更好地了解任务放弃的原因,设计任务放弃的预测模型。这将旨在减少我们在本文中观察到的主要放弃现象及其对群众工作的负面影响。

参考文献

[1] Eugene Agichtein, Eric Brill, and Susan Dumais. 2006. Improving web search ranking by incorporating user behavior information. In Proceedings of SIGIR. ACM, 19–26.
[2] Bruce Lawrence Berg, Howard Lune, and Howard Lune. 2004. Qualitative research methods for the social sciences. Vol. 5. Pearson Boston, MA.
[3] Michael S Bernstein, Jaime Teevan, Susan Dumais, Daniel Liebling, and Eric Horvitz. 2012. Direct answers for search queries in the long tail. In Proceedings of the SIGCHI conference on human factors in computing systems. ACM, 237–246.
[4] Mikhail Bilenko and Ryen W White. 2008. Mining the search trails of surfing crowds: identifying relevant websites from user activity. In Proceedings of the 17th international conference on World Wide Web. ACM, 51–60.
[5] Alessandro Bozzon, Marco Brambilla, Stefano Ceri, Matteo Silvestri, and Giuliano Vesci. 2013. Choosing the right crowd: expert finding in social networks. In Proceedings of EDBT. ACM, 637–648.
[6] Daren C Brabham. 2008. Crowdsourcing as a model for problem solving: An introduction and cases. Convergence 14, 1 (2008), 75–90.
[7] Gianluca Demartini, Djellel Eddine Difallah, and Philippe Cudré-Mauroux. 2012. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking. In Proceedings of WWW. ACM, 469–478.
[8] Gianluca Demartini, Djellel Eddine Difallah, Ujwal Gadiraju, Michele Catasta, et al. 2017. An introduction to hybrid human-machine information systems. Foundations and Trends® in Web Science 7, 1 (2017), 1–87.
[9] Djellel Eddine Difallah, Gianluca Demartini, and Philippe Cudré-Mauroux. 2013. Pick-a-crowd: tell me what you like, and i’ll tell you what to do. In Proceedings of the 22nd International Conference on World Wide Web. ACM, 367–374.
[10] Abdigani Diriye, Ryen White, Georg Buscher, and Susan Dumais. 2012. Leaving so soon?: understanding and predicting web search abandonment rationales. In Proceedings of CIKM. ACM, 1025–1034.
[11] Steven Dow, Anand Kulkarni, Brie Bunge, Truc Nguyen, Scott Klemmer, and Björn Hartmann. 2011. Shepherding the crowd: managing and providing feedback to crowd workers. In CHI EA on Human Factors in Computing Systems. ACM, 1669–1674.
[12] Carsten Eickhoff. 2018. Cognitive Biases in Crowdsourcing. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM ’18). ACM, NewYork, NY, USA, 162–170. https://doi.org/10.1145/3159652.3159654
[13] Enrique Estellés-Arolas and Fernando González-Ladrón-De-Guevara. 2012. Towards an integrated crowdsourcing definition. Journal of Information science 38, 2 (2012), 189–200.
[14] Ujwal Gadiraju, Alessandro Checco, Neha Gupta, and Gianluca Demartini. 2017. Modus operandi of crowd workers: The invisible role of microtask work environments. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies 1, 3 (2017), 49.
[15] Ujwal Gadiraju, Ricardo Kawase, and Stefan Dietze. 2014. A taxonomy of microtasks on the web. In Proceedings of HT. ACM, 218–223.
[16] Ujwal Gadiraju, Ricardo Kawase, Stefan Dietze, and Gianluca Demartini. 2015. Understanding malicious behavior in crowdsourcing platforms: The case of online surveys. In Proceedings of CHI. ACM, 1631–1640.
[17] Tanya Goyal, Tyler McDonnell, Mucahid Kutlu, Tamer Elsayed, and Matthew Lease. 2018. Your Behavior Signals Your Reliability: Modeling Crowd Behavioral Traces to Ensure Quality Relevance Annotations. In Proceedings of the 6th AAAI Conference on Human Computation and Crowdsourcing (HCOMP).
[18] Richard L Gruner and Damien Power. 2017. What’s in a crowd? Exploring crowdsourced versus traditional customer participation in the innovation process. Journal of Marketing Management 33, 13-14 (2017), 1060–1092.
[19] Kotaro Hara, Abigail Adams, Kristy Milland, Saiph Savage, Chris Callison-Burch, and Jeffrey P Bigham. 2018. A Data-Driven Analysis of Workers’ Earnings on Amazon Mechanical Turk. In Proceedings of CHI. ACM.
[20] Ahmed Hassan, Xiaolin Shi, Nick Craswell, and Bill Ramsey. 2013. Beyond clicks: query reformulation as a predictor of search satisfaction. In Proceedings of CIKM. ACM, 2019–2028.
[21] Panagiotis G Ipeirotis, Foster Provost, and JingWang. 2010. Quality management on amazon mechanical turk. In Proceedings of the ACM SIGKDD workshop on human computation. ACM, 64–67.
[22] S Jagabathula, L Subramanian, and A Venkataraman. 2017. Identifying unreliable and adversarial workers in crowdsourced labeling tasks. The Journal of Machine Learning Research 18, 1 (2017), 3233–3299.
[23] Gabriella Kazai, Jaap Kamps, and Natasa Milic-Frayling. 2012. The face of quality in crowdsourcing relevance labels: Demographics, personality and labeling accuracy. In Proceedings of CIKM. ACM, 2583–2586.
[24] Gabriella Kazai and Imed Zitouni. 2016. Quality Management in Crowdsourcing Using Gold Judges Behavior. In Proceedings of WSDM. ACM, 267–276.
[25] Y Kim, A Hassan, RW White, and I Zitouni. 2014. Modeling dwell time to predict click-level satisfaction. In Proceedings of WSDM. ACM, 193–202.
[26] K Kirppendorff. 1989. Content analysis: An introduction to its methodology. Beverley Hills: Sage (1989).
[27] Aniket Kittur, Jeffrey V Nickerson, Michael Bernstein, Elizabeth Gerber, Aaron Shaw, John Zimmerman, Matt Lease, and John Horton. 2013. The future of crowd work. In Proceedings of the 2013 conference on CSCW. ACM, 1301–1318.
[28] Ari Kobren, Chun How Tan, Panagiotis Ipeirotis, and Evgeniy Gabrilovich. 2015. Getting more for less: Optimized crowdsourcing with dynamic tasks and goals. In Proceedings of the 24th WWW confererence. 592–602.
[29] Dmitry Lagun and Mounia Lalmas. 2016. Understanding user attention and engagement in online news reading. In Proceedings of WSDM. ACM, 113–122.
[30] Hongwei Li, Bo Zhao, and Ariel Fuxman. 2014. The wisdom of minority: Discovering and targeting the right group of workers for crowdsourcing. In Proceedings of the 23rd international conference on World wide web. ACM, 165–176.
[31] Eddy Maddalena, Marco Basaldella, Dario De Nart, Dante Degl’Innocenti, Stefano Mizzaro, and Gianluca Demartini. 2016. Crowdsourcing relevance assessments: The unexpected benefits of limiting the time to judge. In Fourth AAAI Conference on Human Computation and Crowdsourcing.
[32] Eddy Maddalena, Stefano Mizzaro, Falk Scholer, and Andrew Turpin. 2017. On Crowdsourcing Relevance Magnitudes for Information Retrieval Evaluation. ACM Trans. Inf. Syst. 35, 3, Article 19 (Jan. 2017), 32 pages.
[33] Eddy Maddalena, Kevin Roitero, Gianluca Demartini, and Stefano Mizzaro. 2017. Considering assessor agreement in ir evaluation. In Proceedings of the ACM SIGIR International Conference on Theory of Information Retrieval. ACM, 75–82.
[34] Tyler McDonnell, Matthew Lease, Mucahid Kutlu, and Tamer Elsayed. 2016. Why is that relevant? Collecting annotator rationales for relevance judgments. In Fourth AAAI Conference on Human Computation and Crowdsourcing.
[35] R Mehrotra, AH Awadallah, M Shokouhi, E Yilmaz, I Zitouni, A El Kholy, and M Khabsa. 2017. Deep Sequential Models for Task Satisfaction Prediction. In Proceedings of CIKM. ACM, 737–746.
[36] Kevin Roitero, Eddy Maddalena, Gianluca Demartini, and Stefano Mizzaro. 2018. On Fine-Grained Relevance Scales. In SIGIR. 675–684.
[37] Joel Ross, Lilly Irani, M Silberman, Andrew Zaldivar, and Bill Tomlinson. 2010. Who are the crowdworkers?: shifting demographics in mechanical turk. In CHI’10 extended abstracts on Human factors in computing systems. ACM, 2863–2872.
[38] Jeffrey M. Rzeszotarski and Aniket Kittur. 2011. Instrumenting the Crowd: Using Implicit Behavioral Measures to Predict Task Performance. In Proceedings of UIST. ACM, 13–22. https://doi.org/10.1145/2047196.2047199
[39] Eero Sormunen. 2002. Liberal relevance criteria of TREC-: Counting on negligible documents?. In Proceedings of SIGIR. ACM, 324–330.
[40] Anselm L Strauss. 1987. Qualitative analysis for social scientists. Cambridge University Press.
[41] Matteo Venanzi, John Guiver, Gabriella Kazai, Pushmeet Kohli, and Milad Shokouhi. 2014. Community-based bayesian aggregation models for crowdsourcing. In Proceedings of WWW. ACM, 155–164.
[42] EM Voorhees and DK Harman. 1999. Overview of The Eighth Text REtrieval Conference (TREC 8), 1–24. NIST Special Publication (1999).
[43] G Zuccon, T Leelanupab, S Whiting, E Yilmaz, JM Jose, and L Azzopardi. 2013. Crowdsourcing interactions: using crowdsourcing for evaluating interactive information retrieval systems. Information retrieval 16, 2 (2013), 267–305.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值