当前这个数据时代,各领域各业务场景时时刻刻都有大量的数据产生,如何理解大数据,对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始,进而解释分而治之的处理思想,最后介绍一些流行的大数据技术和组件,读者能够通过本文了解大数据的概念、处理方法和流行技术。
什么是大数据?
大数据,顾名思义,就是拥有庞大体量的数据。关于什么是大数据,如何定义大数据,如何使用大数据等一系列问题,不同领域背景的朋友理解各不相同。IBM将大数据归纳为5个V[^1],涵盖了大数据绝大多数的特性。
大数据的5个V 来源:IBM
Volume:数据量大,从TB(1,024 GB)、PB(1,024 TB)、EB(1,024 PB)、ZB(1,024 EB)甚至到YB(1,024 ZB)。纽约证交所每天产生的交易数据大约在TB级,瑞士日内瓦附近的大型强子对撞机每年产生的数据约为PB级,而目前全球数据总量已经在ZB级,相当于 1,000,000 PB,也就是大家更熟悉的10亿 TB。基于更大规模的数据,我们可以对某个研究对象的历史、现状和未来有更加全面的了解。
Velocity:数据产生速度快,所要求的处理速度和时效性高,因为时间就是金钱。金融市场的交易数据必须以秒级的速度进行处理,搜索和推荐引擎需要在分钟级将实时新闻推送给用户。更快的数据处理速度,让我们基于最新的数据上做更加实时的决策。
Variety:数据类型繁多,包括数字、文字、图片、视频等不同的数据形式,也包括来自社交网络、视频网站、可穿戴设备以及各类传感器的数据。数据可能是Excel里高度结构化的数据,也可能是图片和视频这种非结构化的数据。
Veracity:数据真实性。一方面,数据并非天然具有高价值,一些异常值会被掺杂进来,例如,统计偏差、人的情感影响、天气、经济因素甚至谎报数据等。另一方面,数据源类型不同,数据源多样,如何将这些多元异构数据连接、匹配、清洗和转化,形成具有高置信度的数据是一项非常有挑战的工作。
Value:数据价值。我们研究和利用大数据的最终目的是提供更有价值的决策支持,基于以上提到的四个V,挖掘大数据的深层价值。
在数据分析领域,研究对象的全部被称为总体(Population),总体包含大量的数据,甚至说数据可能是无限的。比如调查15个国家的国民的诚信情况,所有国民是总体。很多情况下,我们无法保证能收集和分析总体的所有数据,因此研究者一般基于研究对象的一个子集进行数据分析。样本(Sample)是从总体中抽取的个体,是研究对象的子集,通过对样本的调查和分析,研究者可以推测总体的情况。在诚信调查的案例中,我们可以在每个国家抽取一部分国民作为样本,以此推测该国国民的诚信水平。
在大数据技术成熟之前,受限于数据收集、存储和分析能力,样本数量相对较小,大数据技术的出现让数据存储和分析能力不再是瓶颈,研究者可以在更大规模的数据上,以更快地速度进行数据分析。但数据并非天然有价值,如何让数据点石成金非常有挑战。在诚信调查中,如果我们直接询问样本对象:“你是否谎报了自己和家庭的资产以获取更大的金融借贷额度?”十之八九,我们得不到真实的答案,但我们可以综合多种渠道来分析该问题,比如结合样本对象的工作经历、征信记录等数据。
可见,大数据具有更大的数据量、更快的速度、更多的数据类型的特点。在一定的数据真实性基础上,大数据技术最终为数据背后的价值服务。
随着大数据技术的发展,数据的复杂性越来越高,有人在这5个V的基础上,又提出了一些补充,比如增加了动态性(Vitality),强调整个数据体系的动态性;增加了可视性(Visualization),强调数据的显