SIGMOD-2020 论文简析:为协作任务推荐部署策略-Recommending Deployment Strategies for Collaborative Tasks
研究背景
大家都知道的,众包任务的流程一般都是由请求者发布,然后上 传到众包平台中的,然后众包工人再从平台上接受任务、提交任务答 案给回平台,平台再进行审核(通过/拒绝),最后汇总给请求者,如下图所示。
目前,众包任务请求者没有对任务的成本、延迟和质量参数上的部署策略进行算法研究及解决方案,仅限于实证研究。典型的参数查询优化问题只关注一个目标来优化。而本文作者从多维度的部署策略建议上去研究,该问题与“推荐关系数据库中的最佳查询计划,其中连接、选择和预测可以多次组合”问题相似。
研究目标
- 帮助请求者部署众包协作任务,研究如何向请求者推荐任务的部署策略,以尽可能实现短时间内以低成本获得高质量的目标;
-当现有的策略不能满足所制定的部署,则探讨替代部署参数的建议,这样就有可能推荐k个策略可用的不同部署参数,从而进一步指导请求者进行任务部署。
问题挑战
- 首先,如何估计不同类型任务的工人可用性是一个具有挑战性的问题,需要深入研究其自身的优点;
- 然后,如何提出原则性但实用的模型来建立部署参数和策略参数之间的关系,或如何现实地对这些职能进行建模,从不同类型任务的历史数据中学习这些职能;
- 最后,如果请求不能满足所制定的请求时,该怎么进行下一步的策略推荐或任务部署。
作者贡献
- 提出了一个通用的 StratRec 框架,用于在考虑员工可用性的策略进行部署时对一组协作任务的质量,成本和延迟进行建模,以向请求者推荐与其部署任务要求参数相对应的多种策略。
- 提出了一个备选部署参数算法(ADPAR),未满足的请求将发送到备用参数推荐模块进行处理。
- 验证了不同策略对不同协作任务(例如文本摘要和文本翻译)的有效性,并为需要指导请求者选择正确策略提供证据。
- 设计了 BatchStrat,一个统一算法框架来解决批部署推荐问题。 BatchStrat 本质上是贪婪的,它为吞吐量最大化问题提供了精确的结果,并为支付最大化问题(NP-Hard)提供了 1/2 近似因子。
总体模型
1 基本概念
在学习模型之前有几个概念需要先了解一下:
- ①部署策略s:就是我们如何安排工人去完成任务,一般用三个维度去衡量(结构-“顺序/并行”;组织-“合作/独立”及风格-“仅依赖人群/将其与机器算法相结合”);如下图所示,例如有一个 从英语翻译到法语的任务。有四种策略风格,图(A)中要求工人依次、独立