大数据开发岗常见面试复习30天冲刺 - 日积月累，每日五题【Day05】—

最新推荐文章于 2024-10-08 11:05:38 发布

2401_84573183

最新推荐文章于 2024-10-08 11:05:38 发布

阅读量270

点赞数 3

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84573183/article/details/138899647

版权

程序员专栏收录该内容

58 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

文章目录

- 前言

不要急着往下滑，默默想5min，看看这5道面试题你都会吗？

面试题 01、请简述如何使用Kafka Simple Java API 实现数据消费？描述具体的类及方法
面试题02、请简述Kafka生产数据时如何保证生产数据不丢失？
面试题 03 请简述Kafka生产数据时如何保证生产数据不重复？
面试题04、Kafka中生产者的数据分区规则是什么，如何自定义分区规则？
面试题05、Kafka中消费者消费数据的规则是什么？

在这里插入图片描述

面试题 01、请简述如何使用Kafka Simple Java API 实现数据消费？描述具体的类及方法

•step1：构建消费者连接对象：KafkaConsumer
–需要配置对象：管理配置，例如连接地址：Properties
•step2：消费者需要订阅Topic
–KafkaConsumer：subscribe（List）
•step3：消费数据
–KafkaConsumer：poll：实现拉取消费数据
–ConsumerRecords：拉取到的所有数据集合
–ConsumerRecord：消费到的每一条数据
•topic：获取数据中的Topic
•partition：获取数据中的分区编号
•offset：获取数据的offset
•key：获取数据中的Key
•value：获取数据中的Value

面试题02、请简述Kafka生产数据时如何保证生产数据不丢失？

•acks机制：当接收方收到数据以后，就会返回一个确认的ack消息
•生产者向Kafka生产数据，根据配置要求Kafka返回ACK
–ack=0：生产者不管Kafka有没有收到，直接发送下一条
•优点：快
•缺点：容易导致数据丢失，概率比较高
–ack=1：生产者将数据发送给Kafka，Kafka等待这个分区leader副本写入成功，返回ack确认，生产者发送下一条
•优点：性能和安全上做了平衡
•缺点：依旧存在数据丢失的概率，但是概率比较小
–ack=all/-1：生产者将数据发送给Kafka，Kafka等待这个分区所有副本全部写入，返回ack确认，生产者发送下一条
•优点：数据安全
•缺点：慢
•如果使用ack=all，可以搭配min.insync.replicas参数一起使用，可以提高效率
–min.insync.replicas：表示最少同步几个副本以后，就返回ack
•如果生产者没有收到ack，就使用重试机制，重新发送上一条消息，直到收到ack