Kafka入门及其原理

Natsu爱学习

已于 2023-09-20 18:59:44 修改

阅读量118

点赞数

分类专栏： kafka 文章标签： kafka 分布式

于 2023-09-18 19:11:17 首次发布

本文链接：https://blog.csdn.net/Natsu_natsu/article/details/132991563

版权

kafka 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一:中间件定义

1.为什么使用消息中间件

如有一个电商交易的场景，用户下单之后调用库存系统减库存，然后调用物流系统进行发货，如果刚开始交易，库存，物流都是属于一个系统，那么他们之间就是接口调用。但是随着系统的发展，各个模块业务越来越庞大、业务逻辑越来越复杂，这个时候就必然要做服务化和业务拆分。这个时候就需要考虑这些系统之间是如何交互的。首先想到的就是RPC（Remote Procedure Call），但是随着系统的发展，可能一笔交易后序需要调用几十个接口位于不同系统的接口，比如短信服务、邮件服务等等，这个时候就需要消息中间件来解决问题了。

消息中间件最突出的特点就是提供数据传输的可靠性和高效性，主要解决分布式的系统数据传输需求。

2.消息中间件的作用

(1):应用解耦

耦合:当实现某个功能的时候，直接接入当前接口

解耦:利用消息队列，将相应的消息发送到消息队列。允许独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。如果接口出现问题，将不会影响到当前的功能

(2):异步调用

允许用户把一个消息放入队列，但不立即处理，在需要的时候再去处理它们。同步变异步

(3)流量削峰

有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。如：高流量的时候，使用消息队列作为中间件可以将流量的高峰保存在消息队列中，从而防止了系统的高请求，减轻服务器的请求处理压力。

3.消息中间件的术语

(1)Broker:消息服务器,提供核心服务

(2)Producer:消息生产者

(3)Consumer:消息消费者

(4)Topic:主题,发布订阅模式下的消息统一汇集地

(5)Queue:队列,P2P模式下的消息队列

4.消息中间件工作模式

发布/订阅模式:

二:kafka定义及架构

1.kafka定义

Kafka是一个分布式流处理平台，也可以被用作分布式消息队列。Kafka具有高吞吐量和分布式发布订阅消息系统的特点，可以处理网站中所有动作流数据。

流处理是一种重要的大数据处理手段，其主要特点是其处理的数据是源源不断且实时到来的。分布式流处理是一种面向动态数据的细粒度处理模式，基于分布式内存，对不断产生的动态数据进行处理。其对数据处理的快速，高效，低延迟等特性，在大数据处理中发挥越来越重要的作用。

2.kafka架构

1)生产者:负责将数据写入到Kafka集群中的主题中

2)消费者:负责从主题中读取数据进行处理

3)topic(主题):是消息的逻辑容器，可以将相似的消息归类到同一个主题中。它用于实现数据的发布、订阅和消费。在Kafka中，数据被分割成多个小块，这些小块被称为Kafka Topic。Kafka集群由多个节点组成，每个节点都可以在Topic之间传递数据。

4)partition(分区):是主题的逻辑划分，用于实现数据的并行处理和负载均衡。

5)broker(代理):在Kafka集群中负责存储和处理数据的服务器节点。每个broker可以被分配一个唯一的broker id，并且通过设置监听端口来进行数据交互。Kafka broker与Zookeeper之间通过数据交互来维护集群的元数据信息。

3.kafka topic

1)Topic

(1)主题是已发布消息的类别名称

(2)发布和订阅数据必须指定主题

(3)主题副本数量不大于Brokers个数

2)Partition

(1)一个主题包含多个分区,默认按Key Hash分区

(2)每个Partition对应一个文件夹<>-<partition_id>

(3)每个Partition被视为一个有序的日志文件

(4)Replication策略是基于Partition,而不是Topic

(5)每个Partition都有一个leader,0或多个follower

3)Kafka Message

4.kafka数据流

(1)副本同步(ISR)

ISR（In-Sync Replicas）是与leader副本保持同步的副本集合。ISR的界定方式在Kafka 0.9版本前后是不同的。在Kafka 0.9版本之前，ISR的界定是基于副本的最后一个已确认的偏移量（Last Confirmed Offset，简称LEO）。只有当ISR中的所有副本都更新了对应的LEO后，leader副本才会向右移动HW值，表示写入成功。换句话说，只有ISR中的副本都与leader副本保持同步，才能保证数据的一致性和可靠性。

(2)容灾

是指在Kafka集群中，为了避免因单点故障而导致整个集群不可用，采取一系列措施保障集群的高可用性和数据的可靠性。其机制主要包括副本复制,ISR机制,多数据中心复制,消费者偏移量提交,监控和警报,来提高集群的可用性,保证数据的可靠性,实现故障自动切换及提升系统的稳定性。