kafka知识点总结

最新推荐文章于 2024-07-14 10:11:37 发布

sofency

最新推荐文章于 2024-07-14 10:11:37 发布

阅读量203

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43079376/article/details/107927145

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

kafka的架构图见此链接kafka架构理解

重要概念

partition (分区的概念)：消息发送时都被推送到一个topic上，而topic是由分区（partition）构成
分区的原因：方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，
而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；
可以提高并发，因为可以以Partition为单位读写．
副本（replication）
同一个partition可能会有多个replication（对应server.properties 配置中的default.replication.factor=N）。没有replication的情况下，一旦broker 宕机，其上所有patition 的数据都不可被消费，同时producer也不能再将数据存于其上的patition。引入replication之后，同一个partition可能会有多个replication，而这时需要在这些replication之间选出一个leader，producer和consumer只与这个leader交互，其它replication作为follower从leader 中复制数据
消息写入过程
１producer先从zookeeper的"/brokers/…/state"节点找到该partition的leader
2）producer将消息发送给该leader
3）leader将消息写入本地log
4）followers从leader pull消息，写入本地log后向leader发送ACK
５leader收到所有ISR中的replication的ACK后，增加HW（high watermark，最后commit 的offset）
并向producer发送ACK
消息消费方式
consumer采用pull的方式从broker中读取数据
push（推）模式很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。对于Kafka而言，pull模式更合适，它可简化broker的设计，consumer可自主控制消费消息的速率，同时consumer可以自己控制消费方式——即可批量消费也可逐条消费，同时还能选择不同的提交方式从而实现不同的传输语义
broker
一个服务器就是一个broker 一个集群由多个broker组成　一个broker可以容纳多个topic
topic就是一个消息队列
broker保存消息
物理上把topic分成一个或多个partition(对应server.properties中的num.partitions=3配置)，每个partiton物理上对应一个文件夹（该文件夹存储该partition的所有消息和索引文件）
存储策略
无论消息是否被消费，kafka都会保留所有消息，有两种策略可以删除旧数据，
1. 基于时间　log.retention.hours =168
2. 基于大小：log.retention.bytes=2122212121
  注意：因为kafka读取特定消息的时间复杂度，为O(1) 即与文件大小无关，所以这里删除过期文件与提高kafka性能无关．

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sofency CSDN认证博客专家 CSDN认证企业博客

码龄6年

203: 原创

5万+: 周排名

125万+: 总排名

19万+: 访问

: 等级

3413: 积分

76: 粉丝

206: 获赞

38: 评论

794: 收藏

私信

关注

热门文章

分类专栏

最新评论

git常用的命令总结
CSDN-Ada助手: 软件工程问题：在项目开始之前, 有很多队员还没有接触过编程语言（例如C#），导致PM在分配任务时很难用时间来衡量，就拿写一个Web Service这一模块来说，一个熟练的程序员可能只需要两个小时，而对于初学者来说，就得先花两天来理解Web Service的实现机制和原理。在有限时间的催促下，导致一些紧急的任务不断向高手集中，而初学者的任务越来越少。这时应该怎么办？
redis主从复制搭建教程
CSDN-Ada助手: TEEngine 是一个物联网数据库，算是处理大数据的么？
JVM双亲委派机制，沙箱安全机制
聚义_1998: 讲解很详细
数据库的第一范式，第二范式，第三范式，BCNF范式理解
michel不爱编程: 第二范式是完全依赖于主键，bcnf 应该是完全依赖于候选键中的任何一个，主键是候选键的中的一部分
数据库的第一范式，第二范式，第三范式，BCNF范式理解
michel不爱编程: 所选码即为主键未所选码即为候选键中除了主键的那一部分，。那么候选键的概念就是能够唯一识别一条记录的不包含其他无关属性的元组。即就是有用的属性或属性组，它可以唯一标识一条记录。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。