1. 三种大数据类型
- 批量大数据:静态的批量数据,在计算前已经获取保存,计算中不发生变化;
- 流式大数据:按时间顺序无限增加的动态数据序列;
- 大规模图数据:大规模的图结构数据,如:社交网络图。(图数据存在较强的局部依赖性)
2. 大数据处理平台的技术架构
- 数据采集层——包括业务数据、互联网数据(可以通过爬虫采集)、物联网数据(可以通过流采集);
- 数据存储层 -——注意非关系型(NoSQL)数据库(Redis、MongoDB);
- 数据处理层——用到的工具有:MapReduce、Storm、Giraph;
- 服务封装层.
3. 一些开源平台
- 数据采集系统:Sqoop(用于关系型数据库和非关系型数据库的数据转移),Scrapy(基于Python的爬取框架),Flume;
- 数据存储系统:HDFS(Hadoop Distributed File System)、Swift、Kafka;
- 计算引擎:MapReduce(批量数据)、Storm(流式数据)、Giraph(图数据)、Spark(支持批量流式图数据);
- 数据分析工具:Hive(基于Hadoop的数据仓库,可将SQL语句转换为MapReduce任务运行)、Spark SQL(类似Hive,是基于Spark的数据仓库)。