自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 图解kafka-Parallel Consumer的三种并行消费方式

在处理一批消息时,只有当该批次中最后一条消息被成功处理后,才会提交这批次中连续的最后一个已处理的 offset。这种方式确保了提交的 offset 是连续的、有序的。

2024-07-12 08:45:00 969

原创 图解kafka-并发消费设计实践

使用 Java 线程池机制,主线程创建多个具体的子线程(ConsumerSubTask),并将不同的 Partition 的数据分发给这些子线程处理。: 对于分区数量较少的情况,可以考虑将多个分区的消费任务合并到一个消费子线程中处理。: 根据系统负载和实时分区的数量,动态调整线程池的大小和分配策略,以达到最佳的性能和资源利用率。主线程在适当的时机,根据消费情况提交消费位移,以确保消息被正确地标记为已消费。这是一个非阻塞操作。处理特定分区的数据,确保每个分区的数据由一个线程按顺序处理,以保持顺序性。

2024-07-11 18:30:00 577

原创 图解kafka-多线程消费挑战详解

在多线程消费模式中,确实可以通过增加消费者实例和线程来提升消费能力和并行度。

2024-07-11 08:15:00 921

原创 图解kafka-消费者单线程模型的局限性

在 Kafka 中,主题(Topic)是消息的逻辑容器,每个主题可以有一个或多个分区(Partition)。每个分区在物理上是一个独立的日志,分区内的消息保证了顺序性。分区的数量影响到主题的并发处理能力和吞吐量。如下图kafka中每个分区只会被分配给消费者中的一个消费者如果此时,增加P2和P3分区。

2024-07-10 17:57:18 1203

原创 kafka23-Rebalance触发场景和流程详解

Group Coordinator 收到 Consumer-3 的 JoinGroup 请求后,将撤销所有消费者(Consumer-1 和 Consumer-2)的当前订阅主题的命令附加在 HeartBeatResponse 中,并返回给它们。在 Coordinator 收到其他消费者的心跳信息后,会将撤销 Consumer-1 和 Consumer-2 订阅的 TopicPartition 的命令附加在 HeartBeatResponse 中,并广播给它们。

2024-07-10 08:15:00 825

原创 Kafka22-消费者组协调器和启动流程

组协调器是 Kafka 群组的中央处理器,负责协调组成员之间的 Rebalance 过程。:负责选举消费者组的领导者(Leader),领导者负责在 Rebalance 时协调分配和重新分配资源。:当消费者加入消费者组时,向组协调器发送 JoinGroupRequest 请求,协调器负责处理这些请求,并制定新的资源分配方案。:在 Rebalance 过程中,协调器向消费者组成员发送 SyncGroupResponse,告知它们分配的分区情况。

2024-07-09 21:45:00 689

原创 kafka21-消费者分区分配策略详解

也就是说,如果某个消费者在一个分区上消费,那么尽量在 Rebalance 时将这个分区继续分配给同一个消费者,避免频繁的重新分配,从而减少系统的不稳定性和性能开销。:与 StickyAssignor 类似,CooperativeStickyAssignor 也会尽量保持消费者与分区的黏性,即尽量让每个消费者在 Rebalance 后继续消费它之前所处理的分区,从而减少不必要的重新分配。:StickyAssignor 在保持黏性的基础上,还会尽量保持分区的均衡分配,避免某些消费者处理过多或过少的分区。

2024-07-09 21:00:00 739

原创 kafka20-消费者提交消费位移原理

每条消息在 Kafka 中都有一个唯一的 offset,它表示消息在分区中的位置。Kafka 使用 offset 来唯一标识分区中的每条消息,offset 是一个非负整数,从 0 开始递增。对于一个给定的分区而言,每条消息的 offset 都是唯一的。

2024-07-09 20:15:00 934

原创 kafka19-顺序写机制如何保证高速写入

Kafka 利用顺序写的策略,通过将消息批量追加到分区的末尾,并最终以大块数据的形式顺序写入磁盘,以实现高效的写入性能和吞吐量。这种方式有效地利用了现代操作系统和硬件的优化能力,使得 Kafka 能够处理大规模的数据流而不牺牲性能和可靠性。

2024-07-09 14:30:00 1504

原创 kafka18-PageCache高效写以及mmap调用原理

PageCache(页缓存)是Linux操作系统中一种用来缓存文件系统数据的机制。它的主要作用是在内存中缓存从硬盘文件读取的数据,以提高文件访问速度和系统性能。整个过程通过使用 MMAMP 技术和操作系统的高效刷盘机制,使得 Kafka 在处理大量数据时能够实现高性能和低延迟的数据写入和持久化存储。

2024-07-09 09:54:01 929

原创 kafka17-消息阻塞原理及优化方案

例如,当Flink实时计算平台的CPU使用率飙升时,很可能会影响到Kafka的读写性能,表现为Kafka生产者在发送消息时出现阻塞现象。:如果某些 Topic 的流量远大于其他 Topic,或者生产者在发送消息时指定了分区,而未指定的分区没有消息,这可能导致节点间或分区间的数据不均衡。:随着集群状态的变化,Leader 副本的切换或迁移可能导致个别 Broker 节点上的数据更多,进而导致节点间的数据不均衡。:如果集群中使用的磁盘性能参差不齐,可能会导致性能较差的磁盘成为瓶颈,进而影响整体性能。

2024-07-08 21:00:00 901

原创 kafka16-生产者的吞吐量和延迟优化2

在 Kafka 生产者中,优化发送请求是提高吞吐量和确保消息顺序的关键。:控制生产者在发送消息之前等待的毫秒数,以便将多个消息合并到同一个批次中。是 Kafka 生产者中用于缓存待发送消息的核心组件。的值可以发送更大的批次,从而减少网络请求的次数。的值可以提高吞吐量,但可能会增加消息的延迟。中包含的最大字节数。

2024-07-08 09:15:00 711

原创 kafka15-生产者的吞吐量和延迟优化1

自定义分区器:如果Sticky分区策略不满足需求,可以自定义分区器。通过实现接口并重写partition方法,可以控制消息的分区逻辑。配置自定义分区器:在生产者配置中指定自定义分区器的类名。@Override// 初始化配置@Override// 根据key或自定义逻辑来决定分区if (key!= null) {// 对于null key,可以使用RoundRobin或其他逻辑@Override// 清理资源none:不进行压缩,这是默认设置。gzip。

2024-07-08 08:30:00 992

原创 kafka14-kafka生产者延迟原理及优化

Kafka生产者端出现延迟的原因可以归结为多个方面:生产者在发送消息前需要确定目标分区的Leader副本。这需要通过获取主题的元数据来实现。如果元数据获取过程耗时过长,尤其是在参数设定的时间内无法完成,生产者将无法发送消息,从而导致延迟。:每次发送消息,生产者都需要与Broker建立网络连接。如果生产者频繁发送单条消息,这将导致大量的网络开销,降低消息发送的效率。:为了减少网络请求,生产者会将多条消息累积到一个RecordBatch中。这个过程由batch.size参数控制。

2024-07-08 08:00:00 912

原创 kafka13-生产者事务:跨分区跨会话的精准一次持久化

若生产者没有开启幂等性,导致消息重复写入的问题。:Topictest-topic的分区副本数设置为3,意味着每个消息会被复制到3个Broker上。表示至少需要有2个副本同步消息后,才能认为消息写入成功。acks=all表示生产者需要等待所有的副本都确认消息写入后,才会认为消息发送成功。:在Kafka中,每个分区都有一个Leader副本和若干个Follower副本。生产者首先向Leader副本发送消息,然后Leader副本将消息复制到Follower副本。

2024-07-07 20:39:09 731

原创 kafka12-生产者分区内消息的有序性

如果生产者重启,它会获得一个新的 PID,这会导致跨会话的幂等性问题,因为旧的 PID 相关的状态信息无法被新会话访问。: 在这种情况下,由于 Broker 已经保留了足够的信息来验证重复,Sender 线程会向生产者反馈消息已经发送成功,即使没有从 Broker 收到有效的 offset 和 timestamp。如果生产者由于崩溃或其他原因重启,新的会话将无法访问旧会话的状态信息,因此无法保证跨会话的消息幂等性。Broker 会拒绝那些序列号不连续的请求,即序列号不等于最后一个确认的序列号加一的消息。

2024-07-07 17:00:00 895

原创 kafka11-kafka生产者重试和幂等性

设置发送消息的重试次数是生产者容错机制的一部分,它允许生产者在遇到暂时性问题时有机会重新发送消息,从而提高消息送达的成功率。

2024-07-07 16:00:00 1263

原创 kafka10-kafka生产者消息可靠性:acks和最小同步副本参数

ISR: 包含 Leader 副本和一些 Follower 副本,这些 Follower 副本已经复制了 Leader 副本上的所有数据,并且在一定的参数限制内保持与 Leader 的同步。

2024-07-07 15:00:00 1189

原创 kafka09-1M以上消息的发送、存储以及消费

由于Kafka不直接支持发送大型消息,需要自定义生产者来处理消息的上传和发送引用,以及消费者来处理从Kafka接收引用并从外部存储中检索原始数据。

2024-07-07 09:25:42 687

原创 kafka08-生产者消息发送流程详解2:PageCache持久化

生产者客户端向 Broker 端循环生成发送数据请求。

2024-06-29 09:30:00 995

原创 kafka07-生产者消息发送流程详解1:从生产者到PageCache

在上海的用户信息(user_id以"0"开头)发送到Partition-0。在杭州的用户信息(user_id以"1"开头)发送到Partition-1。// 假设 key 是 String 类型// 发送到 Partition-0return 0;// 发送到 Partition-1return 1;// 对于其他情况,使用默认分区策略// 其他方法略...

2024-06-29 09:00:00 856

原创 kafka06-生产者通信组件NetworkClient、KafkaChannel和InFlightRequests

通过管理与每个Broker节点的连接状态,并使用Java NIO的Selector来高效地处理多个。在Kafka中,类是负责与Broker节点进行网络通信的核心组件,它在Java NIO的基础上增加了身份验证和加密的功能。以下是。

2024-06-29 08:30:00 824

原创 kafka05-Sender线程消息发送时机和发送流程

batch.sizelinger.ms在Kafka Producer中,负责管理消息的缓存和批量发送。Sender线程通过特定的条件检查来确定何时从中获取并发送消息。

2024-06-28 21:16:32 857

原创 kafka04- 生产者RecordAccumulator工作原理深入探讨

不仅提高了消息发送的吞吐量和效率,还通过减少垃圾回收的需求来优化内存使用,这对于高性能的Kafka Producer至关重要。:如果内存不足,发送消息的线程可能会被阻塞,直到有足够的内存可用。:首先,Producer预估消息M的大小,包括序列化后的Key、Value和Headers的大小。:首先,Producer预估消息M的大小,包括序列化后的Key、Value和Headers的大小。:如果内存不足,申请内存的线程可能会阻塞,直到有足够的内存可用。的大小(例如16KB),它会尝试从内存池中复用已有的。

2024-06-28 16:04:47 795

原创 kafka03-生产者的分区路由策略

热点Key分散:在某些业务场景中,特定的Key可能会产生大量数据,例如热门话题或高频访问的用户ID。如果不对这些热点Key进行特殊处理,它们可能会导致某些分区负载过高,而其他分区则相对空闲。自定义路由策略可以将这些热点Key分散到不同的分区,以实现更均匀的负载分布。数据隔离:在多租户系统中,可能需要将不同租户的数据隔离到不同的分区,以保证数据的独立性和安全性。自定义路由策略可以根据租户ID或其他标识符将数据路由到特定的分区。数据本地性优化:在某些情况下,数据的处理和存储可能需要靠近特定的地理位置或数据中心。

2024-06-28 15:27:35 623

原创 Kakaf02-Kafka拉取元数据的时机

参数控制),KafkaConsumer 会自动拉取最新的元数据信息,以确保消费者能够获取到最新的分区和副本信息。:Broker 返回最新元数据后,更新本地缓存,包括版本号、最后刷新时间等,并根据需要更新全量或部分元数据信息。),如果新创建的主题与正则表达式匹配,KafkaConsumer 会触发元数据的更新,以包含新主题的相关信息。:在 KafkaProducer 对象创建时,会强制更新元数据信息,将目标主题的元数据信息拉取到本地缓存。:拉取成功后,通知主线程,主线程根据最新元数据信息发送数据。

2024-06-28 15:12:31 1017

原创 Kafka01-Kafka生产者发送消息方式(发送即忘、同步、异步)

接着,它演示了三种发送方式:发送即忘、同步发送和异步发送。在异步发送的例子中,我们注册了一个回调函数来处理消息发送成功或失败的情况。: 异步发送结合了发送即忘和同步发送的特点。生产者在发送消息后不会立即等待服务器的确认,而是继续发送下一条消息。: 这种方式是最简单的发送模式,生产者发送消息后不会等待任何确认,直接继续发送下一条消息。: 在同步发送模式下,生产者在发送消息后会等待服务器的确认。在 Kafka 生产者中,确实存在一些关键参数和概念,它们对消息的发送方式和性能有着重要的影响。

2024-06-26 23:22:10 771

原创 深入netty22-netty性能优化和最佳实践

内存池和对象池都是 Netty 中用于优化资源管理的技术。内存池通过预先分配内存块并按需分配,减少了直接缓冲区分配的开销。对象池通过重用对象,减少了对象创建和销毁的开销,同时对 JVM 的垃圾回收也是友好的。这两种技术都有助于构建高性能且稳定的网络应用程序。

2024-05-31 09:45:00 885

原创 深入netty21-netty中的设计模式-模板方法、迭代器、适配器详解

定义了模板方法和基本方法(包括抽象方法和具体方法)。

2024-05-31 08:00:00 2551

原创 深入netty20-netty中的设计模式-建造者、策略、装饰者详解

建造者模式(Builder Pattern)是一种对象创建型设计模式,用于构建一个复杂对象。这种模式通过将对象的构建过程与其表示分离,使得同样的构建过程可以创建出不同的表示。

2024-05-30 20:30:00 859

原创 深入netty19-netty中的设计模式-工厂、责任链、观察者详解

抽象工厂模式是工厂方法模式的进一步扩展。它提供一个接口,用于创建相关或依赖对象的家族,而不需要指定具体类。抽象工厂模式适用于对象族的创建,即多个产品系列。优点易于扩展:增加一个新的产品系列时,不需要修改已有代码,只需增加一个新的具体工厂。隔离复杂对象的创建:客户端不需要知道具体的创建细节。缺点增加新的产品对象时,需要修改所有的工厂类,这可能导致牵一发而动全身的问题。类的个数急剧增加:每个具体类都需要一个具体的工厂类。

2024-05-30 19:15:00 1016

原创 深入netty18-netty中的设计模式-单例模式详解

这种实现方式通常被称为“比尔·波恩(Bill Pugh)的单例模式”,它结合了懒汉式和饿汉式单例模式的优点:它既实现了延迟加载,又避免了同步带来的性能开销,并且是线程安全的。使用静态方法还可以在未来更改单例的实现,而不影响使用单例的客户端代码,因为客户端代码依赖的是方法签名,而不是具体的字段。类的静态成员,并且是在静态初始化块中初始化的,Java 也保证了静态初始化块的执行是线程安全的。只有在第一次使用时才会加载,Java 保证了一个类的加载过程是线程安全的,因此不需要额外的同步措施。

2024-05-30 14:14:14 1036

原创 深入netty17-从JDK并发队列到Mpsc

阻塞队列通过锁和条件变量来保证线程安全,适用于需要严格队列操作顺序的场景。非阻塞队列使用CAS操作来避免锁的开销,提供了更高的并发性能,适用于对性能要求较高的场景。使用Unsafe操作Unsafe提供了一些低级别的操作,可以绕过Java的内存模型限制,从而提高性能。延迟更新(LazySet):使用或进行更新,这些操作使用了StoreStore Barrier,确保写入操作的顺序性,同时减少了内存屏障的开销。避免伪共享:通过在类之间添加填充(Padding),减少不同线程对同一缓存行的争用。

2024-05-29 22:45:00 628

原创 深入netty16-从JDK定时器到netty时间轮

定时任务是指在预定的时间执行某些操作的机制。它可以是周期性执行,也可以是一次性执行。

2024-05-29 22:00:00 919

原创 深入netty15-FastThreadLocal一定更快吗

FastThreadLocal 之所以快,主要得益于其设计和实现方式,与 JDK 中的 ThreadLocal 相比,FastThreadLocal 在性能上做了一些优化。空间换时间:FastThreadLocal 通过预先分配一个足够大的数组(indexedVariables),并为每个 FastThreadLocal 分配一个唯一的索引,从而避免了 ThreadLocalMap 中的哈希表查找和线性探测法解决冲突的过程。这种方式牺牲了一些内存空间,换取了更快的访问速度。避免哈希冲突。

2024-05-29 16:23:16 2340

原创 深入netty14-零拷贝

Netty的零拷贝技术通过多种机制来减少数据拷贝和上下文切换,从而提高网络应用的性能。这些技术包括使用堆外内存、以及FileRegion等,都是Netty在用户态进行数据操作优化的重要手段。通过这些技术,Netty能够更高效地处理网络I/O,特别是在处理大量数据传输时,能够显著提高性能。

2024-05-29 09:15:00 712

原创 深入netty13-Recycler对象池

Stack:作为线程私有的缓存,用于存储可重用的对象。:负责跨线程的对象回收,通过链表结构管理各个线程回收的对象。

2024-05-29 08:45:00 901

原创 深入netty12-jemalloc和netty内存池

不同的内存分配器算法有各自的优势和适用场景。动态内存分配提供了灵活的内存管理方式,伙伴算法有效减少了外部碎片,而Slab 算法则专注于减少小块内存分配的开销和碎片。PoolArenaPoolArena是Netty内存池中用于管理内存的核心组件,类似于jemalloc中的arena。它负责分配内存,并根据CPU核心数设置Arena的数量,以减少资源竞争。PoolChunk和PoolChunk是内存分配的基本单位,类似于页(Page)的概念。管理一组PoolChunk,根据不同的内存使用率将。

2024-05-28 21:45:00 1480

原创 深入netty11-强大的ByteBuf

创建ByteBuf使用创建一个新的ByteBuf,可以指定初始容量和最大容量。写入数据和writeInt()等方法用于向ByteBuf中写入数据,这些操作会改变。读取数据方法用于从ByteBuf中读取数据到字节数组,这会改变。get和set操作getByte()和setByte()等方法用于访问和修改ByteBuf中的字节,这些操作不会改变或。容量和可写性当等于capacity时,ByteBuf变为不可写状态。如果尝试向不可写的ByteBuf写入数据,将会触发扩容。扩容后的capacity。

2024-05-28 21:30:00 988

原创 深入netty10-堆外内存

堆外内存提供了一种绕过JVM内存管理的方式,它适用于需要高性能I/O操作的场景。然而,使用堆外内存需要谨慎,因为它要求开发者手动管理内存,不当的操作可能导致内存泄漏。在使用时,虽然JVM可以帮助回收堆外内存,但在某些情况下,如遇到Full GC或其他内存回收问题,可能会导致性能下降。因此,理解堆外内存的使用和回收机制对于构建高性能Java应用至关重要。合理管理堆外内存对于维护Java应用程序的稳定性和性能至关重要。

2024-05-27 23:45:00 1746

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除