彻底解密WordCount运行原理
1、从数据流动视角揭秘WordCount
2、从RDD依赖关系的视角解密WordCount
3、DAG与Lineage的思考
Spark:
分布式、基于内存(部分基于磁盘)、迭代
分片大小不完全等于Hadoop的Block
开始计算时把Key丢弃了,所以写结果时需要生成Key,符合对称法则
第一个Stage有哪些RDD:HadoopRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD
第二个Stage有哪些RDD:ShuffledRDD, MapPartitionsRDD