1.spark为什么比hadoop快
1.基于内存,中间值不用落磁盘
2.DAG有向无环图
ps: hadoop主要包含两部分: MapReduce和 HDFS
spark 其实优化的只是 hadoop的 MapReduce,
那么 MapReduce最大的诟病
1.MapReduce 把任务分为两段, map阶段和 reduce阶段 ,而reduce阶段必须要等 所有的map阶段都完成后,才能执行。
那么问题就来了,reduce一定要等所有map都执行完成,造成时间的浪费。
2.磁盘开销大
map计算好的结果是写入磁盘的,reduce从磁盘读取 再计算。
那么这个就会导致 磁盘IO开销特别大。
3.MapReduce是把所有的任务都解释为了两个 函数 map函数和 reduce函数,限制了其他类型函数
spark优化添加了其他函数: