大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day06】—(2)

最新推荐文章于 2024-09-29 08:32:14 发布

2401_84573219

最新推荐文章于 2024-09-29 08:32:14 发布

阅读量273

点赞数 3

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84573219/article/details/138899721

版权

程序员专栏收录该内容

58 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

不要急着往下滑，默默想5min，看看这5道面试题你都会吗？

面试题 01、为什么要设计Segment？
面试题02、什么是AR、ISR、OSR？
面试题 03、什么是HW、LEO？
面试题04、什么是一次性语义？
面试题05、Kafka如何保证消费者消费数据不重复不丢失？

在这里插入图片描述

以下答案仅供参考：

文章目录

- 前言

面试题 01、为什么要设计Segment？

•加快查询效率：将数据划分到多个小文件中，通过offset匹配可以定位某个文件，从小数据量中找到需要的数据
•提高删除性能：以Segment为单位进行删除，避免以每一条数据进行删除，影响性能

面试题02、什么是AR、ISR、OSR？

•AR：all replicas
–所有副本 = ISR + OSR
•ISR：In-sync-replicas
–表示正在同步的副本 =》可用副本分区
–如果Leader故障，会从ISR中选举一个新的leader
•OSR：Out-sync-replicas
–表示不健康的副本 =》不可用副本
–判断依据
#如果这个从副本在这个时间内没有与leader副本同步数据，认为这个副本是不正常的
参数设置: replica.lag.time.max.ms = 10000