文章目录
本文主要从结果汇聚(真值推理)、激励机制、空间众包(移动众包)、任务标价、任务分解与分配、众包与社交网络、质量控制、众包安全与隐私保护、众包软件工程、众包数据管理、众包推荐、众包应用这十二个方面介绍众包的整体知识架构。
准备
(1)众包定义:
2006年美国《wired》杂志记者JeffHowe首次在该杂志上使用crowd sourcing(众包)一词,并对其概念做了阐述。他认为“众包”是一场商业变革,即企业通过互联网将工作分包给大众,任何参与者(业余爱好者)都能够借助网络平台来提高创意、解决问题并获取相应的酬金,其实施的关键前提是网络平台的搭建和潜在参与者的网络连接。
(2)众包产生的理论分析:
- 多样化、差异化的顾客需求为众包提供了市场需求条件
- 广大企业从封闭式创新走向开放式创新以应对挑战
- 互联网的出现为众包双方的沟通提供了最有利的条件
- 社会发展为众包产业的发展提供了最广泛的人力资源供给基础
(3)众包特征:
- 众包影响并改变着传统的商业模式
- 众包蕴含着“携手用户协同创新”的理念和有效降低新产品风险的做法
- 众包模糊了员工和消费者之间的界限,延伸了创新边界
- “草根”的创新越发成为主流
(4)众包对产业和社会产生的影响:
- 众包改变了组织架构和颠覆了传统的组织边界
- 众包改变了传统的创新模式
- 众包打破了专业化的门槛
- 众包加速了竞争
(5)众包与外包的相同点:
- 它们都是是竞争日益激烈的市场经济产物
- 延伸了组织边界
- 两者都是网络时代的产物
- 企业的创新不再局限于企业内部,企业开始向外寻求创新能力,这是对传统创新模式的最大突破
(6)众包与外包的不同点:
外包 | 众包 | |
---|---|---|
实施时间 | 20世纪80年代开始 | 21世纪初 |
实施条件 | 不局限于互联网 | 局限于互联网 |
实施动机 | 降低成本 | 解决难题,寻求创意 |
实施绩效 | 提高效率 | 挖掘创意 |
实施风险 | 实施风险大 | 实施风险小 |
文化基础 | 合作式文化 | 参与式文化 |
体现关系 | 雇佣关系 | 合作关系 |
发包对象选择 | 专业人士和机构 | 草根阶层 |
发包对象数量 | 对象数量有限 | 对象数量无限 |
产品生产者 | 生产商 | 消费者、潜在用户 |
付费情况 | 关系一旦确定,需不断付出成本 | 对结果满意时才付费 |
(7)常见的众包平台:
- 巨头类:亚马逊AMT、CrowdFlower、阿里众包、百度众包(MKT)、京东众包(尤在物流)、腾讯优测等;
- IT软件类:Topcoder、Freelancer、oDesk、Guru、空心、码市、威客、快码众包 、中国软件外包平台、开源中国众包平台、程序员客栈 、中软国际旗下—解放号等;
- 测试类:乌云众测、空心科技、SOBUG、TestBird等;
- 信息收集及流程管控类:Easyshift、Gigwalk、Istockphoto、微差事、点点赚、敲宝网等;
- 地图类:DigitalGlobe Tomnod(基于地理信息数据挖掘众包,非营利性)、Moovit(公共交通地图数据众包)、Waze等;
- 其他:科研类、图书编辑类、创意设计类、维基百科、百度百科、字幕组、知道等等等。
1. 结果汇聚(真值推理)
研究内容:
任务结果的质量很大程度上取决于结果推理,这是一个通过将候选答案聚合而生成任务结果的过程。由于众包受到工人能力、任务难度、激励和其他因素的显著影响,单个候选人的回答质量通常不可靠。因此,从一组不可靠的答案中获得高质量的结果是一个非常重要的问题。这个过程称为众包结果汇聚,也叫真值推理,指的是为了容忍错误,我们可以把一个任务分给多个人,然后整合他们的答案并推导出正确答案。
众包任务大多采用冗余分发的形式,然后通过对结果的比较分析得到可信的结果。如何从众多结果中剔除无用信息和错误信息,最终汇聚或推理出可信结果是非常具有挑战性的问题。主要分为基于投票(多数投票、加权投票)、基于统计知识(ZenCrowd、Dawid&Skene、Naive Bayes、GLAD等)和二次众包的结果协同等结果汇聚算法。
后续可研究方向:
上下文相关任务推理;多数投票算法的改进;设计概率模型使用极大似然估计添加潜在变量(贝叶斯,EM算法);聚类方法改进;除噪技术改进后进行推理
研究人员:
孙海龙(北航)
Jing Zhang(安徽大学)
Xindong Wu(University of Louisiana at Lafayette)
Victor S. Sheng(University ofCentral Arkansas)
Dapeng Tao,Jun Cheng(云南大学)
Jeronimo Hernandez-Gonzalez ,Inaki Inza(University of the Basque Country)
Yao Ma,Alex Olshevsky(Boston University)
该方向的一些文献:
- [1] Yili F , Hailong S , Guoliang L , et al. Context-aware result inference in crowdsourcing[J]. Information Sciences, 2018, 460-461:346-363.
- [2] Chen P P , Sun H L , Fang Y L , et al. Collusion-Proof Result Inference in Crowdsourcing[J]. Journal of Computer Science and Technology, 2018, 33(2):351-365.
- [3] Jing Zhang and Xindong Wu. 2018. Multi-Label Inference for Crowdsourcing. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18). ACM, New York, NY, USA, 2738-2747. DOI: https://doi.org/10.1145/3219819.3219958
- [4] Zhang J , Sheng V S , Wu J . Crowdsourced Label Aggregation Using Bilayer Collaborative Clustering[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019:1-14.
- [5] Dapeng T , Jun C , Zhengtao Y , et al. Domain-Weighted Majority Voting for Crowdsourcing[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018:1-12.
- [6] Zhang J , Sheng V S , Li T , et al. Improving Crowdsourced Label Quality Using Noise Correction[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(5):1675-1688.
- [7] J. Hernández-González, I. Inza, and J. A. Lozano, “A note on the behavior of majority voting in multi-class domains with biased annotators,” IEEE Trans. Knowl. Data Eng., vol. 31, no. 1, pp. 195–200, Jan. 2018, doi: 10.1109/TKDE.2018.2845400.
- [8] Y. Ma, A. Olshevsky, C. Szepesvari, and V. Saligrama, “Gradient descent for sparse rank-one matrix completion for crowd-sourced aggregation of sparsely interacting workers,” in Proc. ICML, 2018, pp. 3341–3350.
2. 激励机制
研究内容:
众包的激励机制不是纯粹的机器学习问题了,而是商业问题,或者说博弈问题。众包的标注需求方可以设计奖惩规则(Rules),从而影响标注提供方的趋利行为,而这个博弈问题存在一个对抗: 1. 需求方希望尽量“少付出资金投入,多得到优质标注” 2. 提供方希望尽量“少付出标注劳力,多