Hive的底层计算框架默认是MapReduce,还有两种是Tez和Spark这几种的区别是什么?计算速度上为什么会有明显的差异?
mapreduce:基于磁盘的迭代,中间结果保存在文件中spark:基于内存的,中间结果无需落地磁盘,减少了磁盘IO的操作,DAG计算模型-可以减少shuffle次数sparkmrspark遇到宽依赖才会发生shuffle一次mr任务就会发生一次spark在map端会完成排序mr在reduce端会进行归并排序spark先放内存mr直接放磁盘tez:也有dag有向无关图,container重用,但部署繁琐...
原创
2020-07-20 15:54:45 ·
1227 阅读 ·
0 评论