时空大数据与众包计算学习总结
秦浩桐 2016.12
在应用课堂课程的学习后,我在学习报告选取童咏昕老师的《时空大数据与众包计算》专题进行总结探究。毫无疑问,无论是时空大数据还是众包计算,这两者的兴起都依赖于技术庞大的互联网使用人数,但这两种技术在获取信息时所侧重的对象又有所不同:时空大数据所依赖的,是数目庞大的移动式智能设备提供的信息;而众包计算需要的则是有特定要求的,需要解决发布者问题的数据。所以在这篇报告中,我在对每种技术进行概述之后,又进一步从两种技术中所采集信息里可能存在的一些问题和问题的部分解决方法的角度对两种技术进行探究。
时空大数据
时空大数据是目前最重要也是较为复杂的大数据之一,其表达与组织是数据内容准确度量和价值提炼的基础,全局表达能力是其最本质的特性。在大数据时代,数据内部复杂关系是数据核心价值所在,时空大数据的价值在于时间、空间、对象之间的关联关系。需要研究时空大数据多维关联描述的形式化表达、关联关系动态建模与多尺度关联分析方法,时空大数据协同计算与重构提供快速、准确的面向任务的关联约束。
在时空大数据应用里,需要从数据中进行数据挖掘来采集信息,所以前期采集到的数据的要求应该是大量、信息丰富、符合要求的数据。但在实际情况中,所采集到的数据可能会存在各种各样的问题,例如被常常抱怨的“数据丰富,信息贫乏”,探究其中的原因,一是数据分析技术不够完备高效,二是所采集到的数据质量不高,如数据的输入错误产生的无效数据、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在这样或那样的无效数据或脏数据。这些数据的主要表现为:拼写问题和打印错误,不合法值和空值、不一致值,简同一实体的多种表示,不遵循引用完整性等。时空大数据包括时间、空间、专题属性三维信息,具有多源、海量、更新快速的综合特点。它的数据特点决定了它存在着与其他所需海量数据的技术中一样的问题。
对于这种问题,目前的解决方法是对所采集的数据进行数据清洗。数据清洗(Data Cleaning)的目的是检测数据中存在的错误和不一致,剔除或者改正它们,以提高数据的质量。由所能搜集到的资料进行整理,目前的数据清洗算法的分类可以大致分为如下四种:自动检测属性错误的算法、属性清洗的算法、检测重复记录的算法、重复记录清洗的算法。数据清洗可以很大程度上解决采集到数据所存在的问题,使得接下来的数据挖掘产生有效的结果,使计算得出结果更加准确。
众包计算
众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众网络的做法。众包作为一种灵活、有效的解决方式,开始受到人们越来越多的关注。最近几年,众包领域的各方面研究都取得了很大的进展,提出了许多采用众包手段的新型应用,出现了不少具体的处理方法,得到了不错的工作效果。
但是,由于众包产生在复杂的在线网络交易平台的背景中,所以开始出现质量控制问题,因此,研究如何有效地提高任务完成的质量,并将恶意工作者识别出来,成为了目前众包研究工作中一个急需解决的问题。著名的reCAPTCHA便采用了一些方法对抗此类情况。reCAPTCHA是CMU设计的一个强大系统,让电脑去向人类求助。具体做法是是将OCR(光学自动识别)软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回 CMU。为了改善软件的精确性,reCAPTCHA 会将最困难的词发送给多个用户并挑选其中有相同答案的作为正确的答案。
针对此问题,还有许多众包质量控制的方法已经被研发了出来。选取评测恶意工作者这一角度来进行分析,目前存在以下几种类别:一是制定随机类型和统一类型恶意工作者的评分公式;二是利用相互间标注一致性,测量不同工作者之间完成任务的一致性;三是依据期望最大值算法,估计出多个工作者的个人误差率以及正确答案的估计值。除此之外,还可以通过其他角度进行判断,使得众包计算所得的结果足够可靠。
总结
这就是我对这两种技术中对于采集到信息的优化处理方面目前存在的一些的问题和方法的总结,希望在以后接触这两项技术时,对这些问题的分析能对我起到一定的引导作用。