1.体系
- 大数据概念,计算体系
- 数据采集、建模和分析
- 大数据处理的分析算法
- 大数据处理技术
- 数据可视化
- Hadoop计算体系
- HDFS/HBase存储架构
- MapReduce计算模型
- 计算模型和架构
- 开发平台和工具软件
2.大数据概念
- 大数据(Big Data)特点:(4v)
- 数据量大(数据存储不用关系型数据库---使用基于分布式文件系统的分布式数据库(例如NoSQL非关系型)、存储(基于逐渐的行存储----基于键值对的列存储))、计算模型
- 数据异构化(来源、类型丰富)
- 数据处理需要时效性
- 大规模数据价值(区别于传统数据统计学处理数据:对象(局部和整体)、处理方法(抽样和累计每一条)、结果正确性)
- 数据转化过程:数据(二进制数据)--信息(计算机程序呈现的信息)---知识(通过分析信息)--价值
3.大数据计算系统
-
数据存储系统数据:
- 数据采集、数据清洗(转为标准存储格式:键值对结构,hash表检索)、
- 建模型
- (概念(一个主管下五个职工)、
- 逻辑(数据库完成:外键职工有列所属主管编号)、
- 物理(分布式文件系统完成:存到内存中)
-
存储架构(分布式)、数据仓库、统一数据接口
- 数据处理系统:
- 数据应用系统(可视化)