大数据面试-Hadoop

最新推荐文章于 2024-06-27 14:53:43 发布

文文鑫

最新推荐文章于 2024-06-27 14:53:43 发布

阅读量358

点赞数 4

分类专栏： # 大数据面试-Hadoop 文章标签：大数据 hadoop 分布式

本文链接：https://blog.csdn.net/dgssd/article/details/139748194

版权

大数据面试-Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

为什么有外部表和内部表？区别是什么？

早期也是没有内部表和外部表的说法的，在传统的RDMS数据数据库领域中，如果想要对一个数据库表进行例如增删改查等操作，就需要在数据库引擎中规范建立对应的数据库表，并且把数据导入其中才可以操作。
但是随着行业、大数据组件的不断发展，这种传统的玩法已经不能满足使用了，因此就提出了能不能通过外部表的形式与外界任何形式的数据建立连接。
在hive中，我们只需要通过简单的create external table … location '/xxx/xxx’的sql语句就建立一张外部表，通过location可以指向任何兼容数据的位置。
外部表与内部表不同的是：删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除；对内部表的修改会将修改直接同步给元数据，而对外部表的表结构和分区进行修改，则需要修复（MSCK REPAIR TABLE table_name）。
因为外部表真正的执行不在数据库引擎中，像一些删除操作、修改操作都是不太好支持的，所以还是具有一定的局限性。目前除了hive，还有clickhouse、doris、starrocks等等工具都支持外部表功能。

hadoop集群为什么会出现脑裂以及解决办法？

脑裂最简单的理解就是一山不容二虎，当Leader节点出现故障，系统开始改朝换代，当Follower 完成全部工作并且成为 Leader 后，原 Leader 又复活了（它的故障可能是暂时断开或系统暂时变慢，不能及时响应，但其NameNode 进程还在），并且由于某种原因它对应的 ZKFC 并没有把它设置为 Standby，所以原 Leader 还认为自己是 Leader，客户端向它发出的请求仍会响应，于是脑裂就发生了。
如果出现脑裂，意味着多个 Namenode 数据不一致，此时只能选择保留其中一个的数据。例如：现在有三台 Namenode，分别为 nn1、nn2、nn3，出现脑裂，想要保留 nn1 的数据，步骤为：（1）关闭 nn2 和 nn3（2）在 nn2 和 nn3 节点重新执行数据同步命令：hdfs namenode -bootstrapStandby（3）重新启动 nn2 和 nn3。

mapreduce能不能不要map只要reduce？

大数据技术的核心思想是分治;
分布式计算引擎的核心思想是分治+规约;
分治和规约体现在mapreduce 框架中，就是map +reduce
map是对一份大的数据集，切成小份后各个击破，里面封装着对每一条数据的处理逻辑，对于一些简单的应用来说把每一条数据转化成为想要的样子，就可以直接输出，不需要reduce 过程。但是，每条数据之间有交集，需要做聚合汇总，就必须有reduce 阶段。
reduce本质上是reduce By Key，将有相同Key的数据进行合并，在map 到reduce 的中间过程，会将map 的结果根据key 进行排序和重组，即sort,combine 也就是shuffle 过程。
所以，对于mapreduce 框架来说，reduce 阶段不可以脱离map 而单独存在，因为reduce 本质上是reduce by key ，必须要通过map 阶段来定义哪个是key,哪个是value,以此作为reduce 的输入。
在spark 中可以直接用reduce 吗？可以，他不需要map 来定义。

文文鑫

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据面试-Hadoop

脑裂最简单的理解就是一山不容二虎，当Leader节点出现故障，系统开始改朝换代，当Follower 完成全部工作并且成为 Leader 后，原 Leader 又复活了（它的故障可能是暂时断开或系统暂时变慢，不能及时响应，但其NameNode 进程还在），并且由于某种原因它对应的 ZKFC 并没有把它设置为 Standby，所以原 Leader 还认为自己是 Leader，客户端向它发出的请求仍会响应，于是脑裂就发生了。但是，每条数据之间有交集，需要做聚合汇总，就必须有reduce 阶段。
复制链接

扫一扫