Kafka 入门知识，看这一篇就够了（上）_kafka入门，金三银四Linux运维高级工程师面试题整理

2401_83947194

于 2024-04-17 16:03:06 发布

阅读量674

点赞数 21

分类专栏： 2024年程序员学习文章标签：运维 kafka linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83947194/article/details/137876886

版权

2024年程序员学习专栏收录该内容

265 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Linux运维全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上运维知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注运维）

正文

最近在学习 Kafka（~~别问，问就是公司在用~~ ），将学习过程中的笔记整理出来分享给大家，就当是入入门

提前预览

01 初识 Kafka

Kafka 最早是由 LinkedIn 公司开发的，作为其自身业务消息处理的基础，后 LinkedIn 公司将Kafka 捐赠给 Apache，现在已经成为 Apache 的一个顶级项目了

Kafka 作为一个高吞吐的分布式的消息系统，目前已经被很多公司应用在实际的业务中了，并且与许多数据处理框架相结合，比如 Hadoop，Spark 等

与传统的消息队列相比（RaabitMQ、RocketMQ等）除了异步、消峰、解耦三大经典场景之外，Kafka 有着更多的适用场景：

Kafka 被设计为一个分布式系统，便于向外拓展
Kafka 支持高吞吐量
Kafka 可以将消息持久化到磁盘，因此可以用于批量消费

Kafka 角色

生产者（producer）：也叫发布者，负责创建消息
消费者（consumer）：也叫订阅者，负责消费（读取）消息
Kafka server（broker）：producer 和 consumer 都是 Kafka 的客户端，Kafka 服务端通常被称作 broker

02 topic & partition

Kafka 是发布/订阅模型，消息以 topic 来分类，每一个 topic 都对应一个消息队列，订阅这个 topic 的 consumer 都会能够消费到对应的消息

为了提高吞吐量，实现 topic 的负载均衡，Kafka 在 topic 下又引用了分区（partition）的概念，能够大大提高消费速率

例如某个 topic 下有 n 个队列，那么这个 topic 的并发度就提高 n，同时可以支持 n 个 consumer 并行消费该 topic 中的消息

在这里插入图片描述

对于每一个 topic ，Kafka 会维护其 partition 下的 log，如下图所示

在这里插入图片描述

每一个 patition 都是一个顺序的、不可变的消息队列，并且可以持续地添加。patition 中的消息都被分配了一个唯一的序列号，也叫做偏移量（offset）

这就会导致 Kafka 是没有办法删除消息的，Kafka 会保持所有的消息，无论消息是否被消费，保持到它们过期

实际上 consumer 只是拥有 offset，正常情况当 consumer 消费消息的时候，offset 也线性的的增加，consumer 可以将 offset 重置为更老的一个 offset，重新读取消息

因为每一个 consumer 对应一个 partition，所以不会影响其他 consumer 的操作

PS：topic 是逻辑上的概念，消息真正是存储到 partition 中去的

03 Kafka 分布式

Kafka 一开始就被设计成了分布式的架构，有集群（cluster）的概念

一个 Kafka 服务器被称为 broker，broker 接收 producer 的消息并存入磁盘，consumer 连接 broker 消费消息

若干个 broker 组成一个 cluster，集群内某个 broker 会成为集群控制器（cluster controller），负责管理集群，包括分配分区给 broker，监控 broker 等

在 cluster 中，一个分区由一个 broker 负责，这个 broker 是这个分区中的 leader，当然一个分区可以被复制到多个 broker 上实现冗余

当broker出现故障时还可以将其分区重新分配到其他的broker上，保证高可用性

在这里插入图片描述
Kafka是如何实现数据冗余的呢？

为了实现数据冗余，保证业务的高可用性，Kafka 引入了副本的概念

在 Kafka 集群里，副本有两种角色：

1、对外提供读写服务的称之为 leader；

2、不对外提供读写服务的称之为 follower，follower 会去同步 leader 的数据以此来保证数据一致性

Kafka 会尽量的把 partition 的副本均分在不同的 broker 上，并从中挑选一个作为 leader 副本

在这里插入图片描述
如上图所示：每个 broker 有两个主题，每个主题有两个分区，每个分区有一个副本，分别在不同的 broker 上

只要还存在一个副本，那么 producer 提交的数据就不会丢失，如果某些副本落后于 leader 副本，那么落后的副本就会被移出

如果 leader 副本所在的主机宕机，那么集群就会从剩余的 follower 副本中重新挑选一个副本作为新的 leader 副本，但不是所有的 follower 都有资格去竞选 leader 的（有些数据落后于 leader 太多的 follower 是不能参加竞选的）

为了能够更好地管理副本，Kafka 引入了 ISR——Kafka 动态维护的一组同步副本集合

每个 topic 下的 partition 都有自己的 ISR 列表，ISR 中所有的 follower 都与 leader 保持同步状态，而且 leader 也在 ISR 列表中，只有在自己 ISR 列表中的副本才能参与 leader 竞选

ISR 中的副本是如何保持同步的呢？

在这里插入图片描述
每个 partition 的副本中都会维护三个位移量：

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注运维）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
注运维）**
[外链图片转存中…(img-fyhbfq9Z-1713340973948)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

21
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Kafka 入门知识，看这一篇就够了（上）_kafka入门，金三银四Linux运维高级工程师面试题整理

如果 leader 副本所在的主机宕机，那么集群就会从剩余的 follower 副本中重新挑选一个副本作为新的 leader 副本，但不是所有的 follower 都有资格去竞选 leader 的（有些数据落后于 leader 太多的 follower 是不能参加竞选的）patition 中的消息都被分配了一个唯一的序列号，也叫做偏移量（offset）Kafka 作为一个高吞吐的分布式的消息系统，目前已经被很多公司应用在实际的业务中了，并且与许多数据处理框架相结合，比如 Hadoop，Spark 等。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄141天

265: 原创

-: 周排名

-: 总排名

18万+: 访问

: 等级

6458: 积分

2657: 粉丝

3689: 获赞

7: 评论

3575: 收藏

私信

关注

热门文章

分类专栏

2024年程序员学习 265篇

最新评论

Docker-为已运行的容器添加挂载目录_给已经安装的容器添加新的挂载
阿J~: 强呀强呀，好文支持!
python-celery专注于实现分布式异步任务处理、任务调度的插件
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 funboot能支持celery作为中间件，用户可以使用funboost的极简api来使用celery核心调度，不用手动复杂的配置操作celery funboost 自动化操作celery https://github.com/ydf0509/funboost_support_celery_demo pip install funboost
一篇文告诉你如何入门网络安全，让你成为真正的网安人_作为一名“网安人
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一篇文章教小白会Python 绘制Android CPU和内存增长曲线_python3 绘制各个进程的内存曲线
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
前端必看的8个HTML+CSS技巧（三，前端程序员架构之路该如何继续学习
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。