大数据的生态体系架构图
自下而上:
- 数据来源层:主要是我们业务中的一些数据,比如:订单信息,客户访问量,客户访问喜好等
- 数据传输层:根据数据的结构不同主要分为Sqoop\Flume\Kafka等
- 数据存储层:Hadoop中常用的文件存储主件就是HDFS,HBase是非关系型数据以<K, V>键值对存储,Kafka可以有1G的缓存
- 资源管理层:Yarn资源的管理,负责分配内存、网络分配等
- 数据计算层:分为离线调度和实时调度
- 离线计算主要负责统计任务,比如一天、一个月的交易量等,常用MapReduce 和 SparkCore内存计算
- 实时计算主要负责高并发的实时计算,比如双十一活动等,主要是Spark Streaming实时计算和Flink.
- 任务调度层:负责任务的先后顺序和依赖调度等任务安排