Hadoop、Spark、Kafka面试题及答案整理

最新推荐文章于 2025-04-01 23:02:23 发布

刀哥谈Java

最新推荐文章于 2025-04-01 23:02:23 发布

阅读量1k

点赞数

分类专栏：面试干货文章标签： Java 程序员架构大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Java__world/article/details/90314247

版权

本文详细介绍了Hadoop的shuffle过程，Spark集群运算模式，以及Kafka的数据结构和消费机制。重点讲解了MapReduce的shuffle原理，包括Map端的排序和Reduce端的归并排序。同时，探讨了Spark在Yarn、Mesos和Standalone模式下的运行方式。针对Kafka，解释了Message的组成和查看offset的方法，还分析了Kafka数据存储在磁盘的优势以及如何避免数据丢失。最后，文章提供了关于大数据面试的复习资料和交流群信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

kafka的message包括哪些信息

一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成。

header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic的值为0，那么不存在attributes属性。

body是由N个字节构成的一个消息体，包含了具体的key/value消息。

怎么查看kafka的offset

0.9版本以上，可以用最新的Consumer client 客户端，有consumer.seekToEnd() / consumer.position() 可以用于得到当前最新的offset。

hadoop的shuffle过程

一、Map端的shuffle

Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。

每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)。

combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。