m0_63833709-CSDN博客

原创图解kafka-Parallel Consumer的三种并行消费方式

在处理一批消息时，只有当该批次中最后一条消息被成功处理后，才会提交这批次中连续的最后一个已处理的 offset。这种方式确保了提交的 offset 是连续的、有序的。

2024-07-12 08:45:00 969

原创图解kafka-并发消费设计实践

使用 Java 线程池机制，主线程创建多个具体的子线程（ConsumerSubTask），并将不同的 Partition 的数据分发给这些子线程处理。: 对于分区数量较少的情况，可以考虑将多个分区的消费任务合并到一个消费子线程中处理。: 根据系统负载和实时分区的数量，动态调整线程池的大小和分配策略，以达到最佳的性能和资源利用率。主线程在适当的时机，根据消费情况提交消费位移，以确保消息被正确地标记为已消费。这是一个非阻塞操作。处理特定分区的数据，确保每个分区的数据由一个线程按顺序处理，以保持顺序性。

2024-07-11 18:30:00 577

原创图解kafka-多线程消费挑战详解

在多线程消费模式中，确实可以通过增加消费者实例和线程来提升消费能力和并行度。

2024-07-11 08:15:00 921

原创图解kafka-消费者单线程模型的局限性

在 Kafka 中，主题（Topic）是消息的逻辑容器，每个主题可以有一个或多个分区（Partition）。每个分区在物理上是一个独立的日志，分区内的消息保证了顺序性。分区的数量影响到主题的并发处理能力和吞吐量。如下图kafka中每个分区只会被分配给消费者中的一个消费者如果此时，增加P2和P3分区。

2024-07-10 17:57:18 1203

原创 kafka23-Rebalance触发场景和流程详解

Group Coordinator 收到 Consumer-3 的 JoinGroup 请求后，将撤销所有消费者（Consumer-1 和 Consumer-2）的当前订阅主题的命令附加在 HeartBeatResponse 中，并返回给它们。在 Coordinator 收到其他消费者的心跳信息后，会将撤销 Consumer-1 和 Consumer-2 订阅的 TopicPartition 的命令附加在 HeartBeatResponse 中，并广播给它们。

2024-07-10 08:15:00 825

原创 Kafka22-消费者组协调器和启动流程

组协调器是 Kafka 群组的中央处理器，负责协调组成员之间的 Rebalance 过程。：负责选举消费者组的领导者（Leader），领导者负责在 Rebalance 时协调分配和重新分配资源。：当消费者加入消费者组时，向组协调器发送 JoinGroupRequest 请求，协调器负责处理这些请求，并制定新的资源分配方案。：在 Rebalance 过程中，协调器向消费者组成员发送 SyncGroupResponse，告知它们分配的分区情况。

2024-07-09 21:45:00 689

原创 kafka21-消费者分区分配策略详解

也就是说，如果某个消费者在一个分区上消费，那么尽量在 Rebalance 时将这个分区继续分配给同一个消费者，避免频繁的重新分配，从而减少系统的不稳定性和性能开销。：与 StickyAssignor 类似，CooperativeStickyAssignor 也会尽量保持消费者与分区的黏性，即尽量让每个消费者在 Rebalance 后继续消费它之前所处理的分区，从而减少不必要的重新分配。：StickyAssignor 在保持黏性的基础上，还会尽量保持分区的均衡分配，避免某些消费者处理过多或过少的分区。

2024-07-09 21:00:00 739

原创 kafka20-消费者提交消费位移原理

每条消息在 Kafka 中都有一个唯一的 offset，它表示消息在分区中的位置。Kafka 使用 offset 来唯一标识分区中的每条消息，offset 是一个非负整数，从 0 开始递增。对于一个给定的分区而言，每条消息的 offset 都是唯一的。

2024-07-09 20:15:00 934

原创 kafka19-顺序写机制如何保证高速写入

Kafka 利用顺序写的策略，通过将消息批量追加到分区的末尾，并最终以大块数据的形式顺序写入磁盘，以实现高效的写入性能和吞吐量。这种方式有效地利用了现代操作系统和硬件的优化能力，使得 Kafka 能够处理大规模的数据流而不牺牲性能和可靠性。

2024-07-09 14:30:00 1504

原创 kafka18-PageCache高效写以及mmap调用原理

PageCache（页缓存）是Linux操作系统中一种用来缓存文件系统数据的机制。它的主要作用是在内存中缓存从硬盘文件读取的数据，以提高文件访问速度和系统性能。整个过程通过使用 MMAMP 技术和操作系统的高效刷盘机制，使得 Kafka 在处理大量数据时能够实现高性能和低延迟的数据写入和持久化存储。

2024-07-09 09:54:01 929

原创 kafka17-消息阻塞原理及优化方案

例如，当Flink实时计算平台的CPU使用率飙升时，很可能会影响到Kafka的读写性能，表现为Kafka生产者在发送消息时出现阻塞现象。：如果某些 Topic 的流量远大于其他 Topic，或者生产者在发送消息时指定了分区，而未指定的分区没有消息，这可能导致节点间或分区间的数据不均衡。：随着集群状态的变化，Leader 副本的切换或迁移可能导致个别 Broker 节点上的数据更多，进而导致节点间的数据不均衡。：如果集群中使用的磁盘性能参差不齐，可能会导致性能较差的磁盘成为瓶颈，进而影响整体性能。

2024-07-08 21:00:00 901

原创 kafka16-生产者的吞吐量和延迟优化2

在 Kafka 生产者中，优化发送请求是提高吞吐量和确保消息顺序的关键。：控制生产者在发送消息之前等待的毫秒数，以便将多个消息合并到同一个批次中。是 Kafka 生产者中用于缓存待发送消息的核心组件。的值可以发送更大的批次，从而减少网络请求的次数。的值可以提高吞吐量，但可能会增加消息的延迟。中包含的最大字节数。

2024-07-08 09:15:00 711

原创 kafka15-生产者的吞吐量和延迟优化1

自定义分区器：如果Sticky分区策略不满足需求，可以自定义分区器。通过实现接口并重写partition方法，可以控制消息的分区逻辑。配置自定义分区器：在生产者配置中指定自定义分区器的类名。@Override// 初始化配置@Override// 根据key或自定义逻辑来决定分区if (key!= null) {// 对于null key，可以使用RoundRobin或其他逻辑@Override// 清理资源none：不进行压缩，这是默认设置。gzip。

2024-07-08 08:30:00 992

原创 kafka14-kafka生产者延迟原理及优化

Kafka生产者端出现延迟的原因可以归结为多个方面：生产者在发送消息前需要确定目标分区的Leader副本。这需要通过获取主题的元数据来实现。如果元数据获取过程耗时过长，尤其是在参数设定的时间内无法完成，生产者将无法发送消息，从而导致延迟。：每次发送消息，生产者都需要与Broker建立网络连接。如果生产者频繁发送单条消息，这将导致大量的网络开销，降低消息发送的效率。：为了减少网络请求，生产者会将多条消息累积到一个RecordBatch中。这个过程由batch.size参数控制。

2024-07-08 08:00:00 912

原创 kafka13-生产者事务：跨分区跨会话的精准一次持久化

若生产者没有开启幂等性，导致消息重复写入的问题。：Topictest-topic的分区副本数设置为3，意味着每个消息会被复制到3个Broker上。表示至少需要有2个副本同步消息后，才能认为消息写入成功。acks=all表示生产者需要等待所有的副本都确认消息写入后，才会认为消息发送成功。：在Kafka中，每个分区都有一个Leader副本和若干个Follower副本。生产者首先向Leader副本发送消息，然后Leader副本将消息复制到Follower副本。

2024-07-07 20:39:09 731

原创 kafka12-生产者分区内消息的有序性

如果生产者重启，它会获得一个新的 PID，这会导致跨会话的幂等性问题，因为旧的 PID 相关的状态信息无法被新会话访问。: 在这种情况下，由于 Broker 已经保留了足够的信息来验证重复，Sender 线程会向生产者反馈消息已经发送成功，即使没有从 Broker 收到有效的 offset 和 timestamp。如果生产者由于崩溃或其他原因重启，新的会话将无法访问旧会话的状态信息，因此无法保证跨会话的消息幂等性。Broker 会拒绝那些序列号不连续的请求，即序列号不等于最后一个确认的序列号加一的消息。

2024-07-07 17:00:00 895

原创 kafka11-kafka生产者重试和幂等性

设置发送消息的重试次数是生产者容错机制的一部分，它允许生产者在遇到暂时性问题时有机会重新发送消息，从而提高消息送达的成功率。

2024-07-07 16:00:00 1263

原创 kafka10-kafka生产者消息可靠性：acks和最小同步副本参数

ISR: 包含 Leader 副本和一些 Follower 副本，这些 Follower 副本已经复制了 Leader 副本上的所有数据，并且在一定的参数限制内保持与 Leader 的同步。

2024-07-07 15:00:00 1189

原创 kafka09-1M以上消息的发送、存储以及消费

由于Kafka不直接支持发送大型消息，需要自定义生产者来处理消息的上传和发送引用，以及消费者来处理从Kafka接收引用并从外部存储中检索原始数据。

2024-07-07 09:25:42 687

原创 kafka08-生产者消息发送流程详解2：PageCache持久化

生产者客户端向 Broker 端循环生成发送数据请求。

2024-06-29 09:30:00 995

原创 kafka07-生产者消息发送流程详解1：从生产者到PageCache

在上海的用户信息（user_id以"0"开头）发送到Partition-0。在杭州的用户信息（user_id以"1"开头）发送到Partition-1。// 假设 key 是 String 类型// 发送到 Partition-0return 0;// 发送到 Partition-1return 1;// 对于其他情况，使用默认分区策略// 其他方法略...

2024-06-29 09:00:00 856

原创 kafka06-生产者通信组件NetworkClient、KafkaChannel和InFlightRequests

通过管理与每个Broker节点的连接状态，并使用Java NIO的Selector来高效地处理多个。在Kafka中，类是负责与Broker节点进行网络通信的核心组件，它在Java NIO的基础上增加了身份验证和加密的功能。以下是。

2024-06-29 08:30:00 824

原创 kafka05-Sender线程消息发送时机和发送流程

batch.sizelinger.ms在Kafka Producer中，负责管理消息的缓存和批量发送。Sender线程通过特定的条件检查来确定何时从中获取并发送消息。

2024-06-28 21:16:32 857

原创 kafka04- 生产者RecordAccumulator工作原理深入探讨

不仅提高了消息发送的吞吐量和效率，还通过减少垃圾回收的需求来优化内存使用，这对于高性能的Kafka Producer至关重要。：如果内存不足，发送消息的线程可能会被阻塞，直到有足够的内存可用。：首先，Producer预估消息M的大小，包括序列化后的Key、Value和Headers的大小。：首先，Producer预估消息M的大小，包括序列化后的Key、Value和Headers的大小。：如果内存不足，申请内存的线程可能会阻塞，直到有足够的内存可用。的大小（例如16KB），它会尝试从内存池中复用已有的。

2024-06-28 16:04:47 795

原创 kafka03-生产者的分区路由策略

热点Key分散：在某些业务场景中，特定的Key可能会产生大量数据，例如热门话题或高频访问的用户ID。如果不对这些热点Key进行特殊处理，它们可能会导致某些分区负载过高，而其他分区则相对空闲。自定义路由策略可以将这些热点Key分散到不同的分区，以实现更均匀的负载分布。数据隔离：在多租户系统中，可能需要将不同租户的数据隔离到不同的分区，以保证数据的独立性和安全性。自定义路由策略可以根据租户ID或其他标识符将数据路由到特定的分区。数据本地性优化：在某些情况下，数据的处理和存储可能需要靠近特定的地理位置或数据中心。

2024-06-28 15:27:35 623

空空如也

空空如也