1.1 大数据概述
大数据并不仅仅是“大量的数据”。在学术界,图灵奖获得者Jim Gray提出了以大数据为基础的数据密集型科学研究,也就是科学研究的第四范式,数据探索(data exploration);在工业界,大数据技术成为了涵盖分布式存储与管理、并行计算、机器学习与人工智能等一系列技术的庞大技术体系。目前,大数据技术与云计算、人工智能一起被公认为是IT(信息技术)时代向DT(数据技术)时代跃迁的三大产业支柱。
1.1.1 大数据来源
大数据是指规模大且复杂,以致于很难用现有数据库管理工具或数据处理应用来处理的数据集(Gartner如是定义:Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making)。它涵盖了数据采集、存储、分析、使用等几个方面。
根据来源对象的不同,可以将其分为源自人、机、物等几类的大数据。若根据应用领域划分,则典型的大数据来源包括:互联网大数据、物联网大数据、生物医疗大数据、电信大数据、金融大数据、智慧城市大数据、交通大数据、科学研究大数据等。
1.1.2 大数据应用
大数据技术已经被广泛应用于电子商务、金融、智能医疗、智能交通等领域:
- 互联网大数据分析方面:分析用户购物数据,构建用户画像,准确地掌握用户购物倾向,实现精准营销;
- 交通大数据分析方面:对数据按时间切片分析,构建实时热点分布图,进行景区热力预警分析;
- 医疗健康大数据分析方面:通过对大量电子病历的学习,医学研究机构可以更清晰地发现疾病演变规律,并作出更科学、准确的诊断。
1.1.3 大数据技术架构
大数据技术设计数据的采集与预处理、数据分析、数据解释等。如下图
- 1.数据采集与预处理:数据源种类繁多,数据类型多样、包含各类结构化、非结构化和半结构化数据,因此数据采集与预处理为后继流程提供高质量数据集;为提高数据吞吐量,降低存储成本,通常采用分布式架构来存储大数据。
- 2.数据分析:是大数据应用的核心流程,分析层次大致分为计算架构、查询与检索,以及数据分析与处理等三类。在计算架构方面,MapReduce是广泛采用的计算架构和框架;在查询与检索方面,NoSQL类数据库技术得到更多关注;数据分析与处理方面,主要技术包括语义分析与数据挖掘。
- 3.数据解释:在更好地支持用户对数据分析结果的使用,涉及的主要技术有可视化技术和人机交互技术。
- 4.数据传输、虚拟集群等其他支撑技术:为大数据处理提供技术支撑。
1.2 大数据安全与隐私保护需求
1.2.1 大数据安全
由于数据价值密度高,大数据往往吸引大量攻击者铤而走险。在大数据场景带来如下各项新技术挑战:
- 1.在满足可用性的前提下实现大数据机密性:以数据加密为例,大数据应用不仅对加密算法性能提出了更高的要求&#