2018-7-9 =>大致介绍
大数据体系框架结构图
Spark和MapReduce计算模型的比较
shuffle的简单介绍:
shuffle:针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。
由图可见Shuffle过程横跨了map,reduce两端
Spark的整体架构
SparkSQL和hive
SparkSQL主要是替代了Hive的查询引擎,一般情况是去查询Hive数据仓库中的表,也可以直接对HDFS文件进行查询。
Spark Streaming和Storm