大数据面试

深入解析Hadoop技术：外部表、脑裂与MapReduce、Spark性能比较

文文鑫

已于 2024-06-17 14:34:52 修改

阅读量726

点赞数 12

CC 4.0 BY-SA版权

文章标签：大数据

于 2024-03-13 14:10:26 首次发布

本文链接：https://blog.csdn.net/dgssd/article/details/136678698

本文探讨了Hadoop中的外部表与内部表的区别，解释了脑裂现象及其解决方案，并比较了MapReduce和Spark的性能优劣，以及map、mapPartition、repartition和coalesce的区别。

Hadoop

为什么有外部表和内部表？区别是什么？

早期也是没有内部表和外部表的说法的，在传统的RDMS数据数据库领域中，如果想要对一个数据库表进行例如增删改查等操作，就需要在数据库引擎中规范建立对应的数据库表，并且把数据导入其中才可以操作。
但是随着行业、大数据组件的不断发展，这种传统的玩法已经不能满足使用了，因此就提出了能不能通过外部表的形式与外界任何形式的数据建立连接。
在hive中，我们只需要通过简单的create external table … location '/xxx/xxx’的sql语句就建立一张外部表，通过location可以指向任何兼容数据的位置。
外部表与内部表不同的是：删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除；对内部表的修改会将修改直接同步给元数据，而对外部表的表结构和分区进行修改，则需要修复（MSCK REPAIR TABLE table_name）。
因为外部表真正的执行不在数据库引擎中，像一些删除操作、修改操作都是不太好支持的，所以还是具有一定的局限性。目前除了hive，还有clickhouse、doris、starrocks等等工具都支持外部表功能。

hadoop集群为什么会出现脑裂以及解决办法？

脑裂最简单的理解就是一山不容二虎，当Leader节点出现故障，系统开始改朝换代，当Follower 完成全部工作并且成为 Leader 后，原 Leader 又复活了（它的故障可能是暂时断开或系统暂时变慢，不能及时响应，但其NameNode 进程还在），并且由于某种原因它对应的 ZKFC 并没有把它设置为 Standby，所以原 Leader 还认为自己是 Leader，客户端向它发出的请求仍会响应，于是脑裂就发生了。
如果出现脑裂，意味着多个 Namenode 数据不一致，此时只能选择保留其中一个的数据。例如：现在有三台 Namenode，分别为 nn1、nn2、nn3，出现脑裂，想要保留 nn1 的数据，步骤为：（1）关闭 nn2 和 nn3（2）在 nn2 和 nn3 节点重新执行数据同步命令：hdfs namenode -bootstrapStandby（3）重新启动 nn2 和 nn3。

mapreduce能不能不要map只要reduce？

大数据技术的核心思想是分治;
分布式计算引擎的核心思想是分治+规约;
分治和规约体现在mapreduce 框架中，就是map +reduce
map是对一份大的数据集，切成小份后各个击破，里面封装着对每一条数据的处理逻辑，对于一些简单的应用来说把每一条数据转化成为想要的样子，就可以直接输出，不需要reduce 过程。但是，每条数据之间有交集，需要做聚合汇总，就必须有reduce 阶段。
reduce本质上是reduce By Key，将有相同Key的数据进行合并，在map 到reduce 的中间过程，会将map 的结果根据key 进行排序和重组，即sort,combine 也就是shuffle 过程。
所以，对于mapreduce 框架来说，reduce 阶段不可以脱离map 而单独存在，因为reduce 本质上是reduce by key ，必须要通过map 阶段来定义哪个是key,哪个是value,以此作为reduce 的输入。
在spark 中可以直接用reduce 吗？可以，他不需要map 来定义。

Spark

spark比mapreduce快的原因是什么？mapreduce就一定比spark慢嘛？

在早期spark还没有出现的时候，是没人觉得mapreduce慢的，直到spark的出现，让众多大数据开发人员眼前一亮，经过统计，某些情况下，spark的处理效率要比mapreduce快100倍。
内存计算：mapreduce在编程模型上，只有简单map和reduce，而且map阶段的所以数据都要写入到磁盘，导致磁盘io开销很大，速度也很慢，而spark是完全基于内存的计算框架，只有当内存溢出的时候，才会写入到磁盘，这减少了磁盘读写操作，提高了计算效率。
DAG调度：Spark使用DAG(Directed Acyclic Graph)调度引擎，可以在内存中构建一个DAG，以避免重复计算和数据复制。而MapReduce使用简单的Map-Shuffle-Reduce模型，不能充分利用资源，导致资源浪费。
数据结构：Spark支持弹性分布式数据集(RDDs)，允许对数据进行多次处理，并在多个计算节点之间共享数据。而MapReduce只能处理一次MapReduce操作，并将中间结果写入磁盘，从而导致性能损失。
并行度：Spark的并行度更高，可以将数据分成更小的块进行处理。Spark还可以动态调整并行度，以根据数据的大小和计算节点的数量进行自适应优化。而MapReduce的并行度较低，只能使用固定数量的计算节点进行处理。
同时spark针对大量场景，提供了丰富的算子和api，让开发者使用更加灵活方便。
综上所述，Spark具有更好的性能和灵活性，适用于大规模数据处理和机器学习任务。
但是，spark也并非是一定就比