Creating Speech and Language DataWith Amazon’s Mechanical Turk
Chris Callison-Burch and Mark Dredze
Introduction
本文主要介绍 NAACL-2010 workshop
Amazon’s Mechanical Turk是一个crowdsouring site,能够为researcher提供大量的data。
疑问:
1) 获取training data的cost降低后,能够做一些什么研究
2) 获取新的traing data后,能够做一些什么新的task
3) 复杂的annotation能否由untrained annotators完成
HIT:human intelligence task
一些人很容易完成,但机器能以完成的工作
Turker:worker,即做题的人
Requester:设计HIT的人
许多non-expert的观点集合起来,可以接近expert的观点
Gold standard data用于测试Turker的可信度
Turker的人口分布:中文人群多不多
Quality control
一些Turker可能随机选答案,尤其是选择题
1) Requester拒绝某些turkers的回答,警告乃至block
2) 每一个HIT由多个Turker完成,可以挑选质量好的答案
3) Requester设定参与答题的turker拥有一个qualification
Eg:HIT的approval rate和location(缺省)《-IP
4) 防止cheat的其他方法:
进行qualification的test,翻译类的将文本变成图片,避免直接使用machine translation的答案。
重复出题,迭代法(set1的结果作为set2的test data)
Recommended Practice
1) instruction要简洁清晰
2) positive和negative control
3) gold standard data
4) randomize the order
5) publish the report of ensuring quality when using the data gathered by AMT
Shared Task
1) Traditional NLP task
Eg:获得新的corpora、电脑出阅读理解题
2)speech and vision
3)sentiment,polarity and bias
4)information retrieval
5)information extraction
6)machine translation