Two-Sided Online Micro-Task Assignment in Spatial Crowdsourcing

最新推荐文章于 2024-05-31 09:51:40 发布

summermoonlight

最新推荐文章于 2024-05-31 09:51:40 发布

阅读量997

点赞数

文章标签：算法人工智能

本文链接：https://blog.csdn.net/qq_45034517/article/details/128787355

版权

文章目录

Abstract
1 Introduction
4 BASELINE ALGORITHM
5 A TWO-PHASE-BASED FRAMEWORK
6 GREEDY ALGORITHM REVISITED
- 6.1 Greedy Algorithm
- 6.2 Competitive Ratio Analysis
7 EXPERIMENTAL STUDY
- 7.1 Experimental Setup
- 7.2 Experiment Results
8 CONCLUSION

Abstract

随着智能手机的快速发展，空间众包平台越来越受欢迎。空间众包的基础研究是将微观任务分配给合适的人群工作者。现有的许多研究都集中在离线场景，在离线场景中，微任务和人群工作者的所有时空信息都是给定的。在本文中，我们关注在线场景，并确定了一个更实际的微任务分配问题，称为空间众包(GOMA)问题中的全局在线微任务分配。我们首先将在线最大加权二部匹配问题的最新算法扩展到GOMA问题作为基线算法。基线算法虽然为最坏情况提供了理论上的保证，但由于最坏情况在现实世界中发生的概率非常低，其在实际中的平均性能并不理想。因此，我们考虑在线算法的平均性能，即随机顺序模型。我们提出了一个基于两阶段的框架，在此基础上，我们提出了随机顺序模型下竞争比为14的TGOA算法。为了提高效率，我们在此框架下进一步设计了TGOA- greedy算法和TGOA- op算法，其运行速度分别比TGOA算法快18和14。我们还回顾了贪心的平均表现，它一直被认为是最差的，因为它在最坏情况下的竞争比是无界的。最后，通过在合成数据集和实际数据集上的大量实验，验证了所提方法的有效性和效率。

1 Introduction

近年来，空间众包引起了业界和研究界的广泛关注，众包工作者(简称工人)通过手机[1]来完成微任务(简称任务)。例如，在Gigwalk[2]和TaskRabbit[3]上，咨询公司招聘crowd worker来查询超市的产品价格，Waze[4]则使用crowd worker来实时收集交通或剩余停车场的信息。

空间众包的一个核心问题是任务分配(也称为任务分配)[1]，[5]，[6]，[7]，其目的是将任务分配给合适的工人，使分配的任务总数或分配的任务-工人对的总加权值最大化。然而，很多研究都做了离线场景假设，即在分配任务之前，所有任务和工作人员的时空信息都是已知的。因此，它们不适用于实时动态环境，因为在实时动态环境中，任务和工作人员可能随时随地出现，需要空间众包平台立即响应。想象一下下面的场景。周末中午，托尼想知道他家附近他最喜欢的餐馆有多拥挤，这样他就可以决定去哪家餐厅吃午饭，而不用排队。因此，Tony在空间众包平台(例如Gigwalk)上发布了一个任务，并要求人群在餐馆排队时拍照。他希望得到立即的回应。像这样的任务是动态到达的，需要实时响应，人群工作者也是如此。它提出了一个大多数空间众包平台都会遇到的问题:如何在实时动态环境(又称在线场景)中将任务分配给合适的工作人员，并对这种在线场景进行建模?

在离线场景[1]中，空间众包中的任务分配问题可以简化为最大加权二部匹配问题[8]，其中任务和工人对应于二部图中两个不相交的顶点集，如果对应的任务位于对应工人的限制范围内，则两个不相交集合的两个顶点之间存在一条边，其权重为任务和工作者对对应的效用值。然而，离线解决方案在在线场景中变得不可行的，因为任务和工人的到达顺序是未知的。我们通过下面的玩具例子来说明这种情况。

在本文中，我们提出了一个新的在线任务分配问题，称为空间众包(GOMA)中的全局在线微任务分配问题。一个相关的研究分支是在线最大加权二部匹配(OMWBM)问题[10]，[11]，[12]，[13]，[14]，其中二部图中左边顶点的信息是已知的，而右边顶点是动态到达的。GOMA问题与OMWBM问题的主要区别在于任务和工作者都是动态的。即GOMA问题是全局在线或双边在线，并推广了OMWBM问题。

现有的研究一般都是研究在线算法在最坏情况到达顺序(即对抗顺序模型)下的性能。例如，在对抗顺序模型下，gredyrt[14]实现了最知名且近乎最优的保证，而Greedy算法由于其无界保证而被认为是无效的。然而，我们发现扩展贪婪- rt在实践中表现不佳，而贪婪在我们的GOMA问题中表现得更好。原因是在实际应用中很少出现最坏情况的顺序。因此我们关注在线算法的平均性能，即随机顺序模型。在随机顺序模型下，我们提出了四种更有效的算法，具有更好的保证(即恒竞争比)。这项工作的主要贡献是:

我们在空间众包中发现了一个新的在线任务分配问题，即GOMA问题。
我们扩展了贪婪- rt算法作为基线，并提出了三种算法TGOA, TGOAGreedy和TGOA- op。我们分析了它们在对抗序模型和随机序模型下的竞争比率。
我们重新审视了贪心算法，我们的竞争分析表明，贪心算法的效率平均来说不应该是任意糟糕的，这比最坏情况分析更有希望。
我们通过在真实数据集和合成数据集上的大量实验验证了所提出方法的有效性和效率。在有效性方面，我们提出的TGOA、TGOA-Greedy、TGOA- op和Greedy分别比基线Extended Greedy- rt提高了169.58、93.21、170.13、167.07%。

该工作的初步版本在[15]中，我们做出了以下新的贡献:(1)我们设计了新的算法TGOA- op，克服了[15]中提出的TGOA(即不可扩展)和TGOA- greedy(即竞争比TGOA低50%)的缺点，使TGOA- op更加有效和高效。(2)我们分析了在各种常用分布的随机顺序模型下贪心算法的竞争比。(3)我们对合成数据集和真实数据集进行了新的评估。

本文的其余部分组织如下。我们在第2节阐述我们的问题，并在第3节回顾相关工作。我们在第4节中介绍了我们的基线，并在第5节中基于基于两阶段的框架的随机顺序模型下介绍了三种具有恒定竞争比的有效算法。然后我们在第6节中重新讨论贪心算法并分析其竞争比。最后，我们在第7节中进行实验，并在第8节中进行总结。

4 BASELINE ALGORITHM

在本节中，我们扩展了贪婪- rt算法[14]作为我们的基线，它对于单侧OMWBM问题在对抗顺序模型下具有最知名且几乎最优的竞争比。

基本概念。扩展贪婪- rt算法的基本思想是首先在边的权值上随机选择一个阈值，然后在这些权值不小于阈值的边中随机选择一条入射到每个新到达顶点的边。

算法的详细信息。算法1说明了扩展贪婪- rt算法的过程。在第1-2行中，我们首先根据估计的最大权值Umax，在边的权值上随机选择一个阈值ek。当一个新的顶点(任务或工作者)到达时，Extended Greedy-RT会在权重不小于阈值且满足第3-7行匹配结果的所有约束的顶点中添加一条边。如果一个容量为cw的工人到达，算法1将他/她视为同时到达的w的cw个副本，逐一处理。

虽然扩展贪婪- rt通过随机化为最坏情况的出现提供了理论保证，但在实践中，最坏情况的到达顺序通常以低概率出现。我们认为在线算法的平均性能在实际应用中更为重要。

下面我们在随机顺序模型下设计了具有有效竞争比的算法，该模型衡量了在线算法的平均性能。

5 A TWO-PHASE-BASED FRAMEWORK

本节为GOMA问题提供了一个基于两阶段的框架。在此基础上，提出了一种竞争比为14的两阶段全局在线分配(TGOA)算法。为了提高时间效率，我们进一步提出了TGOA- greedy算法，该算法比TGOA算法速度快，但竞争比略低，为18。最后，我们提出了基于相同框架的TGOA-OP，在保持竞争比为14的情况下，效率也更高。

5.1 TGOA Algorithm

基本概念。受秘书问题[13]的解决方案的启发，我们的基本思想是首先将所有的顶点(包括任务和工作者)根据到达顺序分成两个相等的组，并对它们采取不同的策略。

？对于task和worker的前半部分，TGOA执行贪婪策略，将每个新到达的task (worker)分配给效用最高且满足所有约束的相应worker (task)。

？对于任务和工作者的另一半(即顶点的后一半)，我们采用更优的策略。具体来说，在已经到达的下半部分顶点中，包括新到达的v，我们假设使用匈牙利算法[8]找到一个全局最优匹配Mv。如果v在全局最优匹配Mv中被匹配，我们将v赋值给Mv中与v匹配的对应顶点，如果这样一个顶点没有被赋值并且满足所有约束条件。

5.2 TGOA-Greedy Algorithm

基本概念。虽然TGOA算法在顶点的后半部分采用了更优的策略，但它的效率很低，因为它需要三次时间复杂度才能为后半部分的每个顶点找到当前全局最优匹配。

为了提高效率，我们将最优匈牙利算法替换为贪婪策略，使得竞争比略低。

算法的详细信息。我们将匈牙利算法替换为贪婪策略，如算法3所示。在第3-5行中，我们迭代地在Mv中添加一条效用最高的未匹配边，如果这样的边存在的话。如果不存在这样的边，则返回MGdy v。在算法2的第12行，TGOA会找到假设的匹配Mv。因此，《TGOA- greedy》与《TGOA》相似，只是第12行被“Mv Greedy-MatchðT D [W D [fvgÞ”所取代。

5.3 TGOA-OP Algorithm

虽然TGOA- greedy比TGOA快，但它的竞争比更差。因此，我们提出TGOA-OP来提高效率，同时保持相同的竞争比。

基本概念。TGOA-OP的基本思想是不断删除截止日期已过的任务和工作者，使得可用的任务和工作者的数量远远小于任务和工作者的总数。

算法的详细信息。我们简单地删除算法2中TGOA第21行之后截止日期已过的工人/任务。

也就是说，我们从wd和td中删除截止日期早于当前时间的工人/任务。

6 GREEDY ALGORITHM REVISITED

对于OMWBM问题[10]，[12]，[13]，[14]，[45]，贪心算法被认为是在对抗顺序模型下竞争比的无效算法，即我们的GOMA问题的一个特例。然而，最近的实验研究表明，Greedy在其他目标的在线任务分配上表现良好，例如，最小化工人的总差旅成本[34]。因此，贪婪算法在GOMA问题上的平均表现仍然是开放的，我们有动力在下面重新审视贪婪算法。具体来说，我们将在第6.1节中回顾Greedy及其在对抗订单模型下的最差情况性能。然后我们在第6.2节中分析了它在随机顺序模型下的竞争比，这表明了它的平均情况下的性能。

6.1 Greedy Algorithm

基本概念。Greedy的基本思想是将每个新顶点分配给具有最高效用的未匹配邻居，以满足所有约束。

算法的详细信息。算法4给出了贪心的过程。在第2行中，我们选择新顶点v的所有不匹配的邻居作为候选集。在第3-5行中，如果可行，我们贪婪地将具有最高效用的邻居分配给v。

在第6行中，我们安全地删除了截止日期已经过期的任务/工作者。

6.2 Competitive Ratio Analysis

在本小节中，我们通过假设不同的效用在任务和工人之间的分布，分析随机顺序模型下贪婪的竞争比。我们关注三种广泛使用的分布，即均匀分布、指数分布和正态分布，因为它们可以近似任务和工人[15]、[46]、[47]之间的效用。

7 EXPERIMENTAL STUDY

7.1 Experimental Setup

数据集。我们使用两个真实的数据集，gMission数据集[50]和EverySender数据集[51]。gMission是一个基于研究的通用空间众包平台。在gMission数据集中，每个任务都有一个任务描述、一个位置、一个发布时间、一个到期时间(分钟)和收益。每个工人还与一个地点、一个可用时间、一个到期时间(分钟)、最大活动范围(公里)以及基于他/她完成任务的历史记录的成功率相关联。EverySender是一个校园空间众包表达平台，校园里的每个人都可以在这里发布微任务，例如，收集包裹，或作为工作人员执行任务。与gMission数据集类似，EverySender数据集中的每个任务和工作者也包括其相应的信息。由于工人的能力(即cw)在数据集中不受n的影响，我们生成工人的能力。表3给出了真实数据集的统计数据。

我们还使用合成数据集进行评估。实验参数设置如表4所示，其中默认参数用粗体标注。为了模拟公用事业遵循某种分布的情况，我们生成了符合正态分布、均匀分布和指数分布的pt值。具体来说，我们改变参数m;意思是;1 = ?分别在前面提到的分布中。对于正态分布，我们将参数s设为3.75，只改变m的值，因为m往往对性能的影响更大(基于定理7)。截止日期是由表中参数due加上一个任务/工作者到达的时间计算出来的。我们使用两种不同的方法来生成任务和工人的位置，在100 ?在二维坐标中是100。在一种方式中，我们以一种随机的方式生成位置，就像在我们的初步版本[15]中那样。在另一种方式中，我们首先随机生成工人的位置，然后依赖于生成任务的位置，即在工人的循环区域内随机采样位置。为了简单起见，我们使用Syn#1和Syn#2来表示这两种方法生成的合成数据集。主要的区别是，由于范围限制，一个工作人员在Syn#1中可以执行的任务比Syn#2少。所有任务和工人的到达顺序服从随机顺序模型的均匀分布。

度量和实现。 我们对扩展贪婪- rt(用“Ext-GRT”表示)、TGOA、TGOA-Greedy、TGOA- op和Greedy算法的总效用得分(简称效用)、总运行时间(简称时间)和内存成本(简称内存)进行了评估。我们还给出了离线最优解(用“OPT”表示)的结果。在每个实验中，我们重复测试100个不同的任务和工人在线到达顺序，并报告平均结果。所有算法都是在GNU c++中实现的，实验在Intel® Xeon® X5675 3.07 GHz CPU和128gb主存的服务器上进行。

7.2 Experiment Results

我们首先在两个具有不同参数的合成数据集上展示了结果，然后在两个真实数据集上展示了性能。由于篇幅限制，一些实验结果在我们的补充材料[21]中显示，包括在Syn#1上改变容量cw和成功率dw的结果，在Syn#1和Syn#2上改变半径rw和响应截止日期的结果。

w的基数性的影响，改变jWj的结果如图2的前两列所示。效用随着jWj的增加而增加，因为随着jWj的增加有更多匹配的边。TGOA、TGOA- greedy和TGOAOP返回的匹配结果比基线Extended Greedy-RT更好，前者的效用比基线高169.58、93.21和170.13%。贪心的效用比基线扩展贪心- rt大了167.07%。贪心在Syn#1上优于TGOA和TGOA-Greedy，而贪心在Syn#2上的效果不如它们。由于在Syn#2上，一个工人周围有更多收益不同的任务，Greedy可能会匹配最先到达但收益较少的任务。然而，TGOA和TGOA- op的分配是相对全局最优的。TGOA-Greedy算法的效用比其他算法略差。随着jWj的增加，所有算法的时间和内存开销都会增加。贪婪是最有效的，而TGOA是最低效的，这与他们的复杂性分析是一致的。TGOA- greedy和TGOA- op在时间和内存成本上都比TGOA更高效。

t的基数的影响，改变jTj的结果如图2的最后两列所示。结果与改变w的基数时的结果相似，所有提出的算法都优于Extended greeyrt。在Syn#1上，Greedy的性能最好，比基线的效用高出58.31%，其次是TGOAOP, TGOA和TGOA-Greedy。在Syn#2上，TGOA- op和TGOA表现最好，平均效用比基线高148.20%，其次是Greedy和TGOA-Greedy。TGOA-Greedy仍然比基线好，在Syn#1和Syn#2上的平均效用分别高出49.01和46.9%。在时间和内存成本方面，Greedy仍然是效率最高的，TGOA是效率最低的。TGOA-Greedy和TGOA-OP的效率与Extended Greedy-RT相当，时间和空间消耗差异均小于40 ms，平均小于1.2 MB。

容量cw对Syn#2的影响。图3的第一列显示了不同cw的结果。所有算法的总效用随着cw的增加而增加，因为一个worker可以逐渐执行更多的任务。当容量cw为5时，TGOA、TGOA- op和Greedy倾向于获得接近最优的效用。因为平均每个工人周围有2500=500¼5个任务，能力为5的工人往往完成最多的任务。与基线相比，我们提出的算法要好得多，平均效用至少高出50.55%。在时间和内存消耗方面，我们可以观察到与其他实验结果相似的规律。

成功率dw对Syn#2的影响。改变工人成功率的结果显示在图3的第二列中。所有算法的效用都随着工人成功率的增加而增加。TGOA和TGOA- op是最有效的算法，其次是Greedy、TGOA-Greedy和Extended Greedy- rt。在运行时间方面，TGOA-OP和Greedy效率最高，其次是TGOA-Greedy和Extended Greedy- rt。TGOA的效率最低。至于内存成本，所有算法只消耗很少的空间(即小于19 MB)。

均匀分布参数均值的影响。在均匀分布下改变效用的结果见图4的前两列。均一分布的效用变化趋势与正态分布相似。在Syn#1上，基于tgo的算法和Greedy算法都接近最优结果。在Syn#2上，TGOA和TGOA- op比其他算法有显著的改进。总体而言，所有提出的算法都比基线更有效。在时间和内存消耗方面，该模式与其他实验结果相似。

参数1=?指数分布。在指数分布下改变效用的结果显示在图4的最后两列中。在效用方面，基于tgo的算法和Greedy算法比基线算法更有效。所有算法的排序与之前的实验结果相似(如图3c和图3d)。在时间和内存消耗方面，除了TGOA算法的运行时间较长外，其他算法都是有效的。

可伸缩性测试。根据我们之前的实验结果，由于TGOA的效率不够高，所以我们省略了它的实验结果。可扩展性测试结果如图5的前两列所示。在效用方面，所有提出的算法都优于基线扩展贪婪- rt。例如，在Syn#2上，TGOA-OP, TGOA-Greedy和Greedy的效率分别是基线Extended Greedy- rt的2.25倍，1.59倍和1.61倍。至于在Syn#1和Syn#2上的运行时间，贪婪是最快的，比基线快10.06倍。TGOA-OP是第二快的，比基线快9.35倍。尽管TGOA-Greedy比基线慢，但它仍然是有效的，因为每个请求平均可以在10毫秒内响应。至于内存成本，所有算法都是高效的(即小于50mb)。

在真实数据集上的性能。图5的最后两列显示了真实数据集上的结果。在EverySender数据集上，当cw大于5时，效用的增加趋于稳定，因为任务总数接近于工作者总数的5倍。在gMission数据集上，当cw从3增加到4时，Greedy和Extended Greedy- rt的效用仍然增加，但tgobased算法的效用略有下降。当cw = 4时，由于第一个阶段工作者的总容量远大于任务总数，基于tgo的第二阶段由于全局最优分配，部分工作者可能不会执行尽可能多的任务

8 CONCLUSION

本文首先提出了一种新的在线微任务分配问题，称为空间众包中的全局在线微任务分配问题(GOMA)，该问题比在线最大加权二部匹配(OMWBM)问题更通用。然后，我们将最先进的贪婪- rt算法扩展到OMWBM问题作为我们的基线。尽管在对抗秩序模型下，基线具有接近最优的保证，但在实际应用中，它的性能并不理想。因此，我们在随机顺序模型下提出了一个基于两阶段的框架，该框架更适合反映平均性能。基于此框架，我们提出了竞争比为14的TGOA算法，但无法扩展到大型数据集。为了提高可扩展性，我们进一步设计了TGOA-Greedy和TGOA-OP，在竞争比为1 8和1 4时运行速度更快。最后，我们分析了贪婪算法的平均性能，在对抗顺序模型下，贪婪算法由于竞争比无界而被认为是无效算法。我们进行了大量的实验，验证了所提出的方法的有效性、效率和可扩展性。根据我们的实验结果，贪心算法比最先进的算法更有效，但对数据集的分布很敏感。TGOA- op和TGOA一样有效，但效率更高。TGOA-OP也比Greedy更稳定。

结果总结。 我们将主要实验结果总结如下。

TGOA比基线扩展贪婪- rt的效率提高了169.58%，但代价是更多的时间和空间。
TGOA- greedy的效果不如TGOA，但仍然比基线有效93.21%。
在运行时间和内存成本方面，它明显优于TGOA。
TGOA- op继承了TGOA和TGOA- greedy的优点，在低时间和内存成本的情况下，比基线效率提高了170.13%(例如，在可伸缩性测试中，比基线速度快9.35倍)。
贪心是最有效的算法，比扩展贪心rt的效用高167.07%。然而，它的有效性对数据集的分布很敏感，例如，它在Syn#1上是最有效的，但在Syn#2上的效果不如TGOA和TGOA- op。
在实际数据集上的结果表明，现有算法(即扩展贪婪- rt)在对抗序模型下具有较好的竞争比，但在实际应用中表现不佳。