大数据开发岗常见面试复习30天冲刺 - 日积月累，每日五题【Day05】——Kafka3_如何做到30天数据每天提取4天数据,持续不重复-CSDN博客

本文链接：https://blog.csdn.net/2401_84182578/article/details/138285522

以古人的话共勉：道阻且长，行则将至；行而不辍，未来可期！

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

文章目录

- 前言

不要急着往下滑，默默想5min，看看这5道面试题你都会吗？

面试题 01、请简述如何使用Kafka Simple Java API 实现数据消费？描述具体的类及方法
面试题02、请简述Kafka生产数据时如何保证生产数据不丢失？
面试题 03 请简述Kafka生产数据时如何保证生产数据不重复？
面试题04、Kafka中生产者的数据分区规则是什么，如何自定义分区规则？
面试题05、Kafka中消费者消费数据的规则是什么？

在这里插入图片描述

面试题 01、请简述如何使用Kafka Simple Java API 实现数据消费？描述具体的类及方法

•step1：构建消费者连接对象：KafkaConsumer
–需要配置对象：管理配置，例如连接地址：Properties
•step2：消费者需要订阅Topic
–KafkaConsumer：subscribe（List）
•step3：消费数据
–KafkaConsumer：poll：实现拉取消费数据
–ConsumerRecords：拉取到的所有数据集合
–ConsumerRecord：消费到的每一条数据
•topic：获取数据中的Topic
•partition：获取数据中的分区编号
•offset：获取数据的offset
•key：获取数据中的Key
•value：获取数据中的Value

面试题02、请简述Kafka生产数据时如何保证生产数据不丢失？

•acks机制：当接收方收到数据以后，就会返回一个确认的ack消息
•生产者向Kafka生产数据，根据配置要求Kafka返回ACK
–ack=0：生产者不管Kafka有没有收到，直接发送下一条
•优点：快
•缺点：容易导致数据丢失，概率比较高
–ack=1：生产者将数据发送给Kafka，Kafka等待这个分区leader副本写入成功，返回ack确认，生产者发送下一条
•优点：性能和安全上做了平衡
•缺点：依旧存在数据丢失的概率，但是概率比较小
–ack=all/-1：生产者将数据发送给Kafka，Kafka等待这个分区所有副本全部写入，返回ack确认，生产者发送下一条
•优点：数据安全
•缺点：慢
•如果使用ack=all，可以搭配min.insync.replicas参数一起使用，可以提高效率
–min.insync.replicas：表示最少同步几个副本以后，就返回ack
•如果生产者没有收到ack，就使用重试机制，重新发送上一条消息，直到收到ack