寒假学习Day 7:论文阅读

寒假学习Day 7:论文阅读

今天主要是进行论文的通读
是一篇全英文的论文,采用机翻加修改的方式全篇先遍历一遍

论文题目

Task Assignment Optimization in Collaborative Crowdsourcing
(协同众包中的任务分配优化)

论文摘要

许多新兴的应用程序需要员工具有互补技能和在复杂的任务上组建团队并协作的专长,比如协作文档编辑,句子翻译和公民新闻。虽然现有的研究已经调查了知识密集型众包的任务分配,但它们往往忽视了员工之间协作的方面,但这方面是此类任务成功的关键。
行为心理学的研究表明,大群体会阻碍合作的成功。考虑到这一点,我们是第一批调查和形式化工作者之间协作的概念,并提出理论分析以理解优化任务分配的困难。我们提出了具有可证明的理论保证的有效逼近算法,并通过使用真实世界和合成数据集的全面实验证明了我们算法的优越性。最后,我们使用Amazon Mechanical Turk进行了一个现实世界的协同句子翻译应用,希望为基于微任务的众包平台中协同众包任务的评估提供一个模板。

Introduction

协作众包是指一组具有互补技能的工人组成小组,共同完成复杂的任务,如编辑、产品设计、公民科学等,被认为是下一代众包的关键组成部分。群体活动中协作的协同效应在社会心理学研究和传统的团队活动、中被广泛接受。尽管"协作”具有巨大的潜力,但“协作”的变革效应作用在很大程度上仍未得到探索.

协同众包任务分配优化:
任务分配优化的目标是通过将合适的任务分配给合适的人员,使任务质量最大化,成本最小化。
这些复杂的任务往往是合作的,要求具有互补技能的员工在彼此贡献的基础上发展。
除了个体工人的特征,换句话说就是人为因素,如工人的技能和工资,我们还必须考虑到各种基于团队的因素。
从现有的社会心理学研究和中,我们确定了成功合作的两个关键因素。

  • Worker-worker亲和力(一起工作的 人之间的亲和力)代表一起工作在同一任务上的工作者的“舒适级别”。
    成功的团队都有相互之间具有高度亲和力的成员。
    低亲和力的团队经常会遭遇低生产力,并且需要更长的时间来完成任务。
  • 第二个因素是上临界质量,这是对团队规模的一个限制,超过这个限制,协作效率就会降低。

在我们的这次工作中,我们提供了第一个在考虑到这些基于团队的因素以及个人的人为因素的情况下形式化任务分配优化的尝试。
认识到这些因素进行任务分配会影响许多众包应用,如协同编辑、公民新闻、公民科学等。

新颖性与挑战:
据我们所知,之前没有人研究过协同众包中的任务分配优化。[7]研究了知识密集型众包中的任务分配优化问题,但没有将协作考虑在内。
在团队形成问题[8]、[9]、[10]等方面的研究,从亲和力、技能等方面探讨了在社交网络中形成最优团队的问题,但没有研究团队规模对协作效率的影响。
群体规模的这一方面(形式化为上临界质量)使得我们的问题表述与之前的工作有本质的不同。
因此,现有的团队组建方案不能解决我们的问题。
事实上,我们将在后面看到,我们所提议的公式更加复杂,计算上也更加困难。
我们工作的另一个新颖贡献是设计实验,让来自亚马逊土耳其机器人的真正工人参与进来,我们希望为评估基于微任务的众包平台上的协作众包任务提供一个模板。
据我们所知,团队组建方面的前期工作并没有进行过这样的评估。

这项工作做出了以下贡献:
1)形式体系:我们启动了协同众包任务分配优化的研究,展示了如何原则性地融合基于团队的因素(如亲和力、上临界质量等)。
2)算法贡献:我们分析了我们问题的计算复杂度,并提出了原则性的分段解,我们开发了具有可证明边界的高效逼近算法。
3)实验:我们提供了一套全面的实验结果,包括一个亚马逊土耳其机械(AMT)工人的真实数据实验,证明了我们提出的解决方案的有效性,并设计了大规模的综合实验。

Data Model

  • 领域:我们得到一个集合D = {d1, d2,…,dm}表示互补的知识主题的领域。例如,句子翻译应用程序可能需要英语理解能力(d1)、英语编辑能力(d2)和法语翻译能力(d3)等领域。

  • 工人:我们假设一个集合U = {u1, u2,…,un},即众包平台可提供的n个员工。一个工人组G由一个来自U的工人子集组成,即G属于U。

  • 技能:技能是D中特定技能领域的知识,在一个连续的范围内进行量化。它与工人和任务相关联。
    工人的技能(在一个尺度[0,1]中)表示工人对某个主题的专门知识。技能的值为0反映没有专长。任务的技能(对于一个领域)表示该任务的最低知识需求,其中0表示不需要该技能。一个人可以利用之前的工作,如[11]来学习工人的技能。

  • 协作任务:一个协作任务t在D中的每个领域di中具有最小的知识阈值Qi,最大成本预算C是为实现t 雇佣工人,和一个上临界质量K,表示的最大数量的能有效协作小组内完成t的工人数。t是用一个向量表示,<Q1,Q2,……,Qm, C, K>。

人为因素

  1. 个人因素-技能和工资
    在众包环境中,员工的技能和工资是其特征。
    对于每个知识领域di, udi∈[0,1]为工作者u对di的专业水平。
    技能专长反映了工人对任务的贡献所带来的质量。
    wu∈[0,1]是工人u愿意完成一项任务的最小补偿额
  2. 基于团队的人为因素-亲密度
    员工之间的亲密关系是实现有效协作的关键因素。
    我们采用了一个类似于社交网络[8]、[10]中的群体形成的亲和模型,其中亲和的原子单位是成对的。
    亲和的概念可以推广到组内(组内)和组间(组间)。
  • 两两亲密度:两个工人ui和uj, aff (ui, uj)之间的亲和度计算为他们的相似度,使用简单的社会人口属性,如地区,年龄,性别,如在之前的工作[12]中做的,以及更复杂的心理特征。
    我们将两两的亲和力值标准化以适应[0,1],并使用工人-工人距离的概念代替,即,dist(ui, uj)=1−aff (ui, uj)。
    因此,更小的距离意味着更好的合作。
    -组内亲和度:对于组G来说,组内亲和度衡量的是组内工作人员之间的协作效率。我们关注的是广泛应用于团队形成文献[8],[9],[10]中的G直径。
    直径测量G中任意两个工人之间的最大距离,直观地测量任意两个工人之间的最大分歧:
    DiaDist(G) = max dist(ui, uj )(ui,uj∈G )
    -群间亲和性:当一个群违反了上临界质量约束[6]时,需要将其分解为更小的群。
    然后,整个任务也被划分到子组中,每个子组承担任务的一部分。
    在本文中,我们假设工作可以自然分解,或者分解是由创建协作任务的用户提供的。
    例如,一个句子的翻译可以被分解成许多段落。
    组间关联的目标是允许子组在最后成功地合并已完成任务的各个组件。
    假设从大组G中分离出两个子组G1和G2,它们的协作效率是子组中所有配对员工距离的总和:
    SumInterDist (G1, G2) = sum{dist (ui, uj)}(ui∈G1,uj∈G2)

一个协作众包应用程序

句子翻译是一种流行的协作众包应用。
考虑一个翻译任务t,它是为将英语视频剪辑翻译成法语而设计的。
通常,这类任务遵循[12]、[4]三个步骤:首先,讲英语的人将视频一帧一帧地翻译成英语,专业编辑编辑翻译,最后由精通英语和法语的人员进行翻译。
该任务要求3项技能:英语理解能力(d1),英语编辑能力(d2),法语翻译能力(d3)。
这是一个协作的任务,因为它涉及到纠正其他[12]的错误和完成彼此的翻译。
这个工作流程需要高亲和力,以获得高质量和稳定的翻译来避免需编辑战争[10],[12],[4]。
有6个工人u1,u2,……,u6可用。
表一和表二提供了每个领域的技能值、工资和两两亲和等人为因素。表三提供了每个领域的最低技能和任务t的最大成本预算要求。
每个任务t与一个上限临界质量约束(表III最后一列)相关联,将一个规模超过的组分解为更小的子组。
在这里插入图片描述

任务分配优化

对于每一项协同众包任务,我们的目标是形成最具凝聚力的工人群体,在所需的技能上相互补充。

  • 问题affawareness - crowd:给定一个协作任务t,目标是形成一个具有互补技能的工人小组G,进一步划分为一组x子小组G1, G2, …Gx(如果需要)并且减少工人的组内亲密度的聚合,以及以及G的子群之间的聚合距离。G也必须满足的技术和成本阈值t和每个子群Gi必须满足的上临界质量约束t。如果G本身满足临界质量约束,不需要进一步分区G。
    任务质量是工人技能的总和,任务成本是G中所有工人工资的总和。
    在这里插入图片描述
  • 两阶段解决策略:问题affawareness - crowd是NP-Complete(参考技术报告[13]来证明),我们提出了一个替代策略称为grp - splt。
    Grp - splt将原问题分解为两个阶段:Grp阶段形成满足技能和成本阈值的单一组,忽略上临界质量约束;
    然后,在Splt阶段,我们将这个大群划分为一组子群,每个子群都满足上临界质量约束,从而使所有对间距离的和最小。
    这是一种广泛应用于解决难题的算法设计策略。
    注意,对于许多任务,Grp阶段本身可能就足够了,而且我们可能永远不需要执行Splt。
    只要工人之间的距离满足度量性质[14],[15],我们就提出了常数因子的近似算法。
    如果没有度量属性的假设,问题在很大程度上仍然是不可近似的[15]。

执行技能和成本:GRP

定义1:Grp:给定一个任务t,组成一组G,使didiist (G)最小,满足技能和成本约束,即
在这里插入图片描述
Grp算法:问题Grp仍然是np -complete,约简与原问题相似。
我们提出了一种算法ApprxGrp,只要距离满足三角形不等式性质,它就具有一个2-近似因子。
该算法严重依赖于一个子例程,称为GrpCandidateSet,我们将在下文中描述它。

  • 子例程 GrpCandidateSet
    该子例程的输入是一组n个工人和一个任务t(特别是技能和成本约束t),输出是满足技能和成本约束的工人组。
    请注意,如果简单地计算,这个计算将花费2n时间。
    相反,我们使用有效的剪枝策略来避免不必要的计算,这些计算可能会更快地终止。
    它计算一棵二叉树来表示可能的搜索空间,考虑到任意顺序的节点,树中的每个节点都是一个工人 u,有两条可能的边(1/0,分别表示u是否包含在组中)。
    该树中的根到叶路径表示一个工作组。
    在一个给定的节点u上,它进行了两个估计界计算:
    a)该路径(从根到该节点)的成本下限(LBC)
    b)每个域的该路径的技能上限(UBdi)
    它对于∀di,比较了LBC和C, UBdi和Qi。
    对于任何一个域如果LBC>C或UBdi <Qi ,它的分支都被完全剔除了。
    否则,继续计算。
    图1给出了进一步的细节。
    ApprxGrp使用这个子例程找到第一个有效的答案。
    如果我们只有恒定数量的成本和任意数量的技能值,或者可以在我们的技术报告[13]中找到恒定数量的技能值和任意数量的成本,那么就可以使用有效的搜索空间优化技术。
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值