JAVA面试相关六（kafka如何实现高并发消息推送）

最新推荐文章于 2024-05-10 15:04:30 发布

进击的烧饼

最新推荐文章于 2024-05-10 15:04:30 发布

阅读量2.4k

点赞数 5

本文链接：https://blog.csdn.net/weixin_40599674/article/details/101778398

版权

本文深入探讨了Kafka如何实现高并发消息推送，包括其利用页缓存、磁盘顺序写和零拷贝技术提高性能，以及消息的持久化、副本机制和分布式特性。此外，还分析了Kafka的可靠性、消息投递模式以及如何通过优化配置提升写入速度。通过对Kafka核心特性的解析，为读者提供了理解与面试相关的关键知识点。

摘要由CSDN通过智能技术生成

今天把这两天学习的kafka知识点做一下整理，供大家参考。

1 什么是kafka

Kafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分，Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。

2 kafka的特点

- 高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。

- 可扩展性：kafka集群支持热扩展

- 持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

- 容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）

- 高并发：支持数千个客户端同时读写

3 相关名词

在一套kafka架构中有多个Producer，多个Broker,多个Consumer，每个Producer可以对应多个Topic，每个Consumer只能对应一个ConsumerGroup。

Broker

消息中间件处理节点，一个Kafka节点就是一个broker，一个或者多个Broker可以组成一个Kafka集群

Topic

主题，Kafka根据topic对消息进行归类，发布到Kafka集群的每条消息都需要指定一个topic

Producer

消息生产者，向Broker发送消息的客户端

Consumer

消息消费者，从Broker读取消息的客户端

ConsumerGroup

每个Consumer属于一个特定的Consumer Group，一条消息可以发送到多个不同的Consumer Group，但是一个Consumer Group中只能有一个Consumer能够消费该消息

Partition

物理上的概念，一个topic可以分为多个partition，每个partition内部是有序的

ISR、AR、OSR

ISR:In-Sync Replicas 副本同步队列
AR:Assigned Replicas 所有副本

ISR是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间replica.lag.time.max.ms和延迟条数replica.lag.max.messages两个维度, 当前最新的版本0.10.x中只支持replica.lag.time.max.ms这个维度），任意一个超过阈值都会把follower剔除出ISR, 存入OSR（Outof-Sync Replicas）列表，新加入的follower也会先存放在OSR中。AR=ISR+OSR。

4 kafka如何实现几十万的高并发写入

Kafka是高吞吐低延迟的高并发、高性能的消息中间件，在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。

持久化

Kafka对消息的存储和缓存依赖于文件系统，每次接收数据都会往磁盘上写，人们对于“磁盘速度慢”的普遍印象，使得人们对于持久化的架构能够提供强有力的性能产生怀疑。事实上，磁盘的速度比人们预期的要慢的多，也快得多，这取决于人们使用磁盘的方式。而且设计合理的磁盘结构通常可以和网络一样快。

Kafka就是基于页缓存技术 + 磁盘顺序写技术实现了写入数据的超高性能。

页缓存技术 + 磁盘顺序写

afka 为了保证磁盘写入性能，首先Kafka是基于操作系统的页缓存来实现文件写入的。

操作系统本身有一层缓存，叫做page cache，是在内存里的缓存，我们也可以称之为os cache，意思就是操作系统自己管理的缓存。

你在写磁盘文件的时候，可以直接写入os cache 中，也就是仅仅写入内存中，接下来由操作系统自己决定什么时候把os cache 里的数据真的刷入到磁盘中。

通过上图这种方式可以将磁盘文件的写性能提升很多，其实这种方式相当于写内存，不是在写磁盘

另外还有非常关键的一点，Kafka在写数据的时候是以磁盘顺序写的方式来落盘的，也就是说，仅仅将数据追加到文件的末尾(append)，而不是在文件的随机位置来修改数据。

所以要保证每秒写入几万甚至几十万条数据的核心点，就是尽最大可能提升每条数据写入的性能，这样就可以在单位时间内写入更多的数据量，提升吞吐量。

零拷贝技术(zero-copy)

大家应该都知道，从Kafka里我们经常要消费数据，那么消费的时候实际上就是要从kafka的磁盘文件里读取某条数据然后发送给下游的消费者，如下图所示：

如果Kafka以上面这种方式从磁盘中读取数据发送给下游的消费者，大概过程是：

先看看要读的数据在不在os cache中，如果不在的话就从磁盘文件里读取数据后放入os cache

接着从操作系统的os cache 里拷贝数据到应用程序进程的缓存里，再从应用程序进程的缓存里拷贝数据到操作系统层面的Socket缓存里，最后从Soket缓存里提取数据后发送到网卡，最后发送出去给下游消费者

最低0.47元/天解锁文章

进击的烧饼

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
JAVA面试相关六（kafka如何实现高并发消息推送）

今天把这两天学习的kafka知识点做一下整理，供大家参考。1什么是kafkaKafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分，Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。2kafka的特点- 高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个t...
复制链接

扫一扫