前言: 这篇文章主要对两篇论文进行综述,一篇是美国一些知名的数据管理领域的专家学者从专业的研究角度出发联合发布的《大数据白皮书》,另一篇是孟晓峰和慈祥的《大数据管理:概念、技术与挑战》[1]。前者介绍了大数据的产生、分析了大数据的处理流程,并提出了大数据所面临的若干挑战,而后者介绍了大数据的基本概念,阐述其同传统数据库的区别,对大数据处理框架进行了详细解析,并展开介绍了大数据时代不可或缺的云计算技术和工具。同样,在论文的最后给出了大数据时代面临的新挑战。由于后者是在前者的基础上完成的,与前者有很多重复的内容,同时又对云计算等方面做出了更进一步的阐述,因此,本篇文章以《大数据白皮书》的结构为主线,将孟的论文中涉及到的其他内容(如大数据的基本概念、云计算等内容)穿插在合适的位置,进行统一综述。
摘要:数据驱动型决策的前景正在获得越来越多人的认可,人们对“大数据”这个概念的热情也越来越高。大数据的发展前景是毋庸置疑的。然而,目前其发展潜力与实现之间仍然存在着巨大的差距。本文介绍了大数据处理的不同流程、处理框架、关键技术和处理工具,最终引出了大数据分析过程中将面临的挑战并给出解决相应问题的部分思路。
Abstract: The prospect of data-driven decision-making is gaining more and more recognition and the passion for the concept of big data is growing rapidly. Big data development prospects are beyond doubt. However, recently there is still a huge gap between its development potential and its realization. This article introduces the different processes of big data pipelines, processing frameworks, key technologies and processing tools, and finally introduces the challenges that big data analysis will face and gives some ideas to solve the corresponding problems.
关键词:大数据;数据分析;云计算;处理流程
key words: big data; data analysis; cloud computing; processing pipelines
1.1 背景
现如今,我们正生活在数据的汹涌浪涛之中,数据正在以前所未有的规模增长着。 在以前,决策的产生或基于猜测,或精心构建的现实模型,但现在人们完全可以依靠数据本身做出合理的决策。这样的大数据分析推动了我们现代社会的几乎所有方面,包括移动服务,零售,制造业,金融服务,生命科学和物理科学。
1.2 大数据的4V定义
虽然大数据的潜在价值巨大且真实,而且已经取得了一些初步的成功,但若要充分发挥这种潜力,仍然有许多技术挑战需要解决。数据的庞大规模是最明显,最主要的挑战。但是,这并不是唯一的挑战。行业分析公司指出,大数据面临的挑战不仅体现在数量(Volume)方面,还在于多样性(Variety)和速度(Velocity)[2],因此我们不应该只关注其中的第一个(Volume)。其中,多样性(Variety)通常意味着数据类型、表示方法和语义解释的异构性。速度(Velocity)是指数据到达的和它必须被处理速度。虽然这三个要素很重要,但却没有包含隐私和可用性等其他要求。
除此3V