7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。
大会第二天上午,美国微软雷德蒙研究院首席研究员周登勇(Denny Zhou)发表了《众包中的统计推断与激励机制》主题报告,从“为什么众包”、“众包的挑战”、“统计推断”、“激励机制”着手,结合多个生动形象的案例,具体总结了微软雷德蒙研究院过去几年在众包研究与工程上的进展。
周登勇博士表示,在可以预见的将来,机器智能完全代替人的智能几乎没有任何可能,我们应该是让人与机器各施所长互相补充。数据标注是一个比较简单的人机系统,但这里面包含的技术已经相当有挑战性。如果我们要建立更复杂的人机智能系统解决更大的问题,会有更多的新的困难需要克服。
以下为演讲实录,在不违背原意的情况下进行了删减和调整。
大家好,我今天要讲的是众包。具体来说,我将讨论如何通过众包获取高质量的数据标签。为开发一个机器学习的智能系统,我们第一步要做的事情就是获得高质量的带标签的数据。
(一)为什么需要众包?
通过众包我们很容易拿到大量的带有标签的数据。众包有两个优点:
- 速度快。一个商业众包平台或许有上百万甚至几百万的数据标记人员。
- 便宜。在亚马逊众包平台标注一个图像数据通常都不到一美分。
所以,通过众包很可以以很少的花费在短时间内获得大量的带标签的数据。在机器学习里大家经常会说的一句话:更多的数据会打败一个聪明的算法。
(二)如何提高众包数据的质量
众包存在的问题
可是,通过众包获取的数据标签质量或许不高。 主要原因如下:
专业技能。因为众包人员可能没有标记你的数据所需的技能。
动机。众包人员没有动力好好的把这个数据标记好。
如果使用低质量的数据去训练一个机器学习模型,不管使用什么高级的算法,都可能无济于事。
众包中的统计推断
在一定程度上,统计推断可以帮助我们从低质量的通过众包获得的数据标签中提炼出正确的标签。
让我们先看一个假想的例子。比如这个橙子与橘子的分类问题。每幅图像同时有几个人标注,不同的人或给出不同的答案。但是,当把不同的答案设法结合起来,我们或许能知道正确的答案是什么。这也通常叫做群体智慧。
怎么结合不同人的答案呢?最简单的办法就是采用投票的方式。也就是说,哪一类标签拿到的投票数是最多的,我们就认为这个图像属于这一类。
我们在做一个问题的时候,总应该想一想,我们的做法合理吗? 还有改进的空间吗? 在我们的这个问题上,投票意味着什么呢?投票意味者所有人的水平都是一样的。也就是说,大家都一样好。