IDC将大数据技术定义为:“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。” 大数据的关键在于种类繁多、数量庞大、使用传统的数据分析工具无法在可容忍的时间内处理相应的数据。大数据分析主要涉及两个不同的领域:一是如何将海量的数据存储起来,二是如何在短时间内处理大量不同类型的数据,即解决大数据存储与大数据处理等问题
大数据概览
大数据的主要特征
大量化(Volume)指数据的数量巨大。日新月异的信息存储技术使得存储大量数据的成本越来越低,特别是分布式存储技术的日益成熟,逐渐使得存储 PB、EB 甚至 ZB 级别的数据成为可能多样性(Variety)指数据的种类繁多。只需要连上互联网,就可以随时随地查看并获取想要的数据,但与此同时也面临了一系列的挑战。互联网上的数据虽多,但大部分数据的呈现形式为非结构化或半结构化的。如何将不同的数据结构归结到统一的结构中是一个重要的问题
快速化(Velocity)是指目前大数据时代,数据越来越实时化,数据的产生与处理速度逐渐能够满足人们 的需求价值密度低(Value)是大数据中最为关键的一点, 虽然真实世界中的数据量极大,但真正有价值的内容 却较少。以监控视频为例,虽然监控视频的内容极其之大,但实际有价值的部分可能不过几分钟。如何利用云计算等技术从大量的数据中提取出最为关键、最有价值的部分,并将信息转换成知识是值得研究的内容
大数据的生命周期
传统的数据分析处理流程中,数据的来源是多种多样的(数据库、社交媒体等),但由于数据价值密度低的特点,通常获取到的数据并不能直接使用进行分析,还需要进行一些列预处理。例如,将无用或者重复的数据过滤并去除,将大量的数据分类并进行管理,根据业务需要对相同类型的数据进行聚合,将非结构化或半结构化的数据结构化并存储到数据库中,或者将原结构化的数据从原有表现形式统一成另一种表示形式,从而使数据井井有条以便于数据分析工作的开展。完成数据整合后,就可以使用统计建模方法建立模型,用数据集进行训练,估计出模型参数。模型建立完成后,在模型投入使用之前还需要对其进行数据检验。最后,训练好的模型要接受新数据的检验, 这一阶段也叫模型评估,它可以用于决策、推荐,也可以通过新收集的数据重新估计参数更新模型
通过数据建模进行统计分析具有重要商业意义:用户行为数据是大数据中一种较为常见的类型,通过大数据技术可以对用户行为数据(例如商品购买记录, 网页访问记录等等)进行分析,从而挖掘出用户与商品之间的关联性,并以此推荐出用户喜爱的商品
大数据处理流程
大数据技术的主要流程可以分为
数据生成和获取 大数据来源多种多样,可以来自物联网、互联网、各类传感器等,同时数据的方式也是多种多样的(数字、文字、声音、图片、视频等),归纳起来其主要来源于三个方面
- 自然界的大数据 机器与机器交互产生的数据,主要通过各类传感器采集
- 生命和生物的大数据 主要是研究基因组学、蛋白组学、代谢组学等生物学数据
- 社交大数据 主要来源于人类社会活动,而互联网通常为其载体
目前大数据的主要研究对象集中在社交数据和自然数据,同时生命和生物的大数据对医学方面的贡献也不容小视
数据预处理 现实中收集到的真实数据通常都是不完整的脏数据,没有办法直接进行数据挖掘和处理,为了提高数据的质量,需要对采集到的原始数据进行预处理。数据预处理的内容主要有
- 数据审核 主要审核数据的准确性、适用性、及时性、一致性
- 数据筛选 对审核过程中发现的错误进行纠正的过程,通常包括剔除不符合要求的数据、筛选出符合条件的数据两方面内容
- 数据排序 按照一定的顺序把数据进行排列,以便于研究者进一步观察和分析
数据预处理的主要方法
- 数据清理 主要目的是格式标准化、清除异常数据、纠正错误
- 数据集成 将多个数据源中的数据结合起来统一存储
- 数据变换 利用规范化、平滑聚集、数据概化等方式将数据转变成有利于数据挖掘的形式
- 数据规约 可以得到规约表,节省挖掘分析时间且仍然能保持数据的完整性
数据存储 传统的数据存储方式可以分为块存储、文件存储、对象存储,大数据的存储方式可以分为
- 分布式系统 主要包含分布式文件系统HDFS--具有高度容错性,适用于批量处理并且能够提供高吞吐量的数据访问、分布式键值系统--可以用于存储关系比较简单的半结构化数据,其存储和管理的是对象而不是数据块
- NoSQL数据库 由于关系数据库已经无法满足大量数据的管理需求,NoSQL可以存储超大规模的数据,具有较好的横向扩展能力
- 云数据库 基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库
大数据存储技术路线包括
- 分布式架构 包括Hadoop、MapReduce等,随着相关技术的不断进步,其应用场景也将逐步扩大
- 大数据一体机 专门用于大数据分析处理而设计的软硬件结合的产品,具有良好的稳定性和纵向扩展性
- MPP混合架构 重点面向行业大数据,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,具有高性能和高扩展性的特点
数据分析挖掘 从海量数据中提取出隐含其中的、具有潜在价值的信息,是统计学、人工智能、数据库技术的综合运用
大数据的计算分析框架主要包括
- 批处理框架
- 流处理框架
- 交互式计算框架
- 混合处理框架
- 图数据处理框架
数据结果应用 大数据已被广泛认为是创造新价值的利器,具有无可估量的资源价值,推动各个领域的快速发展,例如医疗、教育、商业、工业、农业、智能电网、工业互联网、排水系统、智能交通等工业等领域
- 医疗方面 通过采集和分析医疗机构产生的实验室记录、用药记录、手术记录、住院记录、急诊记录等各类大数据,总结出其隐含价值并应用在未来的医疗研究中
- 商业领域 股票、保险、银行等行业仍离不开大数据的应用。通过大数据技术可以利用股票走势数据、保险报销人群数据、银行汇率数据等得到一些预测数据,帮助更好的决策