1. 什么是大数据?
狭义定义:用现有一般技术难以管理的大量数据的集合。
用现有一般技术难以管理有两方面:
- 用目前主流的关系型数据库无法进行管理的、具有复杂结构的数据
- 数据量过于庞大,查询时间超出允许的最大限度
2. 大数据的3V和5V特征
2.1 3V特征
IBM总结说:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大的容量、极快的速度和种类丰富的数据”
2.2 大数据的5V特征
1. volume:容量大
容量单位:兆M–>吉G–>太T–>拍P–>艾E–>泽Z
大数据摩尔定律:数据一直都以每年50%的速度增长,即每两年增长一倍
2. variety:类型多。需要支持多种不同格式、不同类型的数据
3. velocity:数据产生和更新的频率快
4. value:应用价值大
5. veracity:质量高,指数据的准确性和可信赖度
3. 广义大数据
广义大数据:包括因具备3V特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织
存储、处理、分析的技术:指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等
能够通过分析这些数据获得实用意义和观点的人才和组织:指的是目前十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织
4. 大数据的结构类型
大多数的大数据都是非结构化或半结构化的
如图显示了几种不同数据结构类型数据的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据类型
大数据的基本数据类型:结构化、半结构化和非结构化数据
除这三类外,还有一种重要的数据类型为元数据。
元数据提供了一个数据集的特征和结构信息。这种数据主要由机器生成,并且能够添加到数据集中。
搜寻元数据对于大数据存储、处理和分析是至关重要的一步,因为元数据提供了数据系谱信息,以及数据处理的起源。
5. 大数据的使用步骤
数据的使用:
- 数据清洗
- 数据管理
- 数据分析
- 数据可视化
一般而言,大数据处理流程,我们可分为四步骤:数据采集、数据导入和清洗处理、数据统计分析和挖掘、结果可视化
1数据采集:一般采用ETL(Extract-Transform-Load)工具将数据抽取到临时文件或数据库,如数据仓库中
2数据清洗和预处理:如数据去重、异常处理和数据归一化
3 数据统计分析和挖掘:统计分析可使用SPSS工具等,进行分类汇总等来满足数据分析的需求。而数据挖掘一般没有预先设定好的主题,主要在现有数据上基于各种算法进行计算,起到预测效果
4数据可视化
判断题:
- 大数据的大主要指容量大(x)