- 博客(2)
- 收藏
- 关注
原创 Hadoop的MapReduce到底有什么问题?
作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。 Map Reduce的过程详细解析 ① : 每个数据的Split对应一个Map任务作为Map的输入,一般来说是HDFS的一个Block。 ② : Map产生的数据会先写入到一个环形的内存的Buffer空间里。 ③ : 当Buffer满了以后, 会Spill溢出数据到磁盘里。.
2021-01-26 18:47:35
227
原创 Spark 3.0 关键新特性回顾
Spark 3.0 关键新特性回顾 从Spark 3.0官方的Release Notes可以看到,这次大版本的升级主要是集中在性能优化和文档丰富上(如下图),其中46%的优化都集中在Spark SQL上。 今天Spark SQL的优化不仅仅服务于SQL语言,还服务于机器学习、流计算和DataFrame等计算任务, 因此社区对于Spark SQL的投入非常大。对外公布的TPC-DS性能测试结果相较于Spark 2.4会有2倍的提升。SQL优化里最引人注意的非Adaptive Query Execution莫
2021-01-26 18:22:47
194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人