hanke_csdn-CSDN博客

原创 Hadoop的MapReduce到底有什么问题？

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题，大家纷纷都转投其他技术栈？我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程，编程方式，然后再去分析一下存在的问题和其中可以借鉴的点。 Map Reduce的过程详细解析 ① : 每个数据的Split对应一个Map任务作为Map的输入，一般来说是HDFS的一个Block。 ② : Map产生的数据会先写入到一个环形的内存的Buffer空间里。 ③ : 当Buffer满了以后, 会Spill溢出数据到磁盘里。.

2021-01-26 18:47:35 227

原创 Spark 3.0 关键新特性回顾

Spark 3.0 关键新特性回顾从Spark 3.0官方的Release Notes可以看到，这次大版本的升级主要是集中在性能优化和文档丰富上(如下图)，其中46%的优化都集中在Spark SQL上。今天Spark SQL的优化不仅仅服务于SQL语言，还服务于机器学习、流计算和DataFrame等计算任务，因此社区对于Spark SQL的投入非常大。对外公布的TPC-DS性能测试结果相较于Spark 2.4会有2倍的提升。SQL优化里最引人注意的非Adaptive Query Execution莫

2021-01-26 18:22:47 194

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人