大白话 kafka 架构原理

lllanlovehua

于 2022-02-20 11:27:53 发布

阅读量156

点赞数

分类专栏：研发管理文章标签： kafka 架构 big data

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1NDA0MDQ3MA==&mid=2247483958&idx=1&sn=dffaad318b50f875eea615bc3bdcc80c&chksm=fbe8efcfcc9f66d9ff096fbae1c2a3671f60ca4dc3e7412ebb511252e7193a46dcd4eb11aadc&scene=21#wechat_redirect

版权

研发管理专栏收录该内容

13 篇文章 0 订阅

订阅专栏

大数据时代来临，如果你还不知道Kafka那就真的out了！据统计，有三分之一的世界财富500强企业正在使用Kafka，包括所有TOP10旅游公司，7家TOP10银行，8家TOP10保险公司，9家TOP10电信公司等等。LinkedIn、Microsoft和Netflix每天都用Kafka处理万亿级的信息。本文就让我们一起来大白话kafka的架构原理。

kafka官网：http://kafka.apache.org/

01 kafka简介

Kafka最初由Linkedin公司开发，是一个分布式的、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常用于web/nginx日志、访问日志、消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

02 kafka的特性

1.高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒；

2.可扩展性：kafka集群支持热扩展；

3.持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止丢失；

4.容错性：允许集群中的节点失败(若分区副本数量为n,则允许n-1个节点失败)；

5.高并发：单机可支持数千个客户端同时读写；

03kafka的应用场景

1.日志收集：一个公司可以用Kafka收集各种服务的log，通过kafka以统一接口开放给各种消费端，例如hadoop、Hbase、Solr等。

2.消息系统：解耦生产者和消费者、缓存消息等。

3.用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索记录、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。

4.运营指标：Kafka也经常用来记录运营监控数据。

5.流式处理

04 kafka架构（重头戏!）

下面是一个kafka的架构图，
在这里插入图片描述

整体来看，kafka架构中包含四大组件：生产者、消费者、kafka集群、zookeeper集群。对照上面的结构图，我们先来搞清楚几个很重要的术语，（看图！对照图理解~）
1、brokert
kafka集群包含一个或多个服务器；每个服务器节点成为一个broker。
2、topic
每条发布到kafka集群的消息都有一个类别，这个类别成为topic（消息主题）；其实就是将消息按照topic来分类；topic就是逻辑上的分类；同一个topic的数据既可以在一个broker节点；也可以在不同的broker节点上
3、partition
分区：每一个topic在物理上被划分为一个或者多个分区；每一个分区在物理上对应一个文件夹；该文件夹里面存储了这个分区所有消息和索引文件；在创建topic时可以指定partition的数量；生产者将消息发到topic时；消息会根据分区策略追加到分区文件的末尾；属于顺序写磁盘；因此效率非常高（经验证，顺序写磁盘效率比随机写内存还要高，这是Kafka高吞吐率的一个很重要的保证）
在这里插入图片描述
上面提到了分区策略，所谓分区策略就是决定生产者将消息发送到哪个分区的算法。Kafka 为我们提供了默认的分区策略，同时它也支持自定义分区策略。kafka允许为每一条消息设置一个key；一旦消息被定义了key；那么就可以保证同一个key的所有消息被写入相同的分区；这种策略属于自定义策略的一种，被称作"按消息key保存策略"，或Key-ordering 策略。
同一主题的多个分区可以部署在多个机器上，以此来实现 kafka 的伸缩性。同一partition中的数据是有序的，但topic下的多个partition之间在消费数据时不能保证有序性，在需要严格保证消息顺序消费的场景下，可以将partition数设为1，但这种做法的缺点是降低了吞吐，一般来说，只需要保证每个分区的有序性，再对消息设置key来保证相同key的消息落入同一分区，就可以满足绝大多数的应用。
4、offset
partition中的每条消息都被标记了一个序号，这个序号表示消息在partition中的偏移量，称为offset，每一条消息在partition都有唯一的offset，消息者通过指定offset来指定要消费的消息。

正常情况下，消费者在消费完一条消息后会递增offset，准备去消费下一条消息，但也可以将offset设成一个较小的值，重新消费一些消费过的消息，可见offset是由consumer控制的，consumer想消费哪一条消息就消费哪一条消息，所以kafka broker是无状态的，它不需要标记哪些消息被消费过。
5、producer
生产者，生产者发送消息到指定的topic下，消息再根据分配规则append到某个partition的末尾。

6、consumer
消费者，消费者从topic中消费数据。
7、consumer group
消费者组，每个consumer属于一个特定的consumer group，可为每个consumer指定consumer group，若不指定则属于默认的group。
同一topic的一条消息只能被同一个consumer group内的一个consumer消费，但多个consumer group可同时消费这一消息。这也是kafka用来实现一个topic消息的广播和单播的手段，如果需要实现广播，一个consumer group内只放一个消费者即可，要实现单播，将所有的消费者放到同一个consumer group即可。
用consumer group还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic。
8、leader
每个partition有多个副本，其中有且仅有一个作为leader，leader会负责所有的客户端读写操作。
9、follower
follower不对外提供服务，只与leader保持数据同步，如果leader失效，则选举一个follower来充当新的leader。当follower与leader挂掉、卡住或者同步太慢，leader会把这个follower从ISR列表中删除，重新创建一个follower。
10、rebalance
同一个consumer group下的多个消费者互相协调消费工作，我们这样想，一个topic分为多个分区，一个consumer group里面的所有消费者合作，一起去消费所订阅的某个topic下的所有分区(每个消费者消费部分分区)，kafka会将该topic下的所有分区均匀的分配给consumer group下的每个消费者，如下图，
在这里插入图片描述
rebalance表示"重平衡"，consumer group内某个消费者挂掉后，其他消费者自动重新分配订阅主题分区的过程，是 Kafka 消费者端实现高可用的重要手段。如下图Consumer Group A中的C2挂掉，C1会接收P1和P2，以达到重新平衡。同样的，当有新消费者加入consumer group，也会触发重平衡操作。

05 对kafka架构的几点解释

一个典型的kafka集群中包含若干producer，若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干consumer group，以及一个zookeeper集群。kafka通过zookeeper协调管理kafka集群，选举分区leader，以及在consumer group发生变化时进行rebalance。
kafka的topic被划分为一个或多个分区，多个分区可以分布在一个或多个broker节点上，同时为了故障容错，每个分区都会复制多个副本，分别位于不同的broker节点，这些分区副本中（不管是leader还是follower都称为分区副本），一个分区副本会作为leader，其余的分区副本作为follower。其中leader负责所有的客户端读写操作，follower不对外提供服务，仅仅从leader上同步数据，当leader出现故障时，其中的一个follower会顶替成为leader，继续对外提供服务。
对于传统的MQ而言，已经被消费的消息会从队列中删除，但在Kafka中被消费的消息也不会立马删除，在kafka的server.propertise配置文件中定义了数据的保存时间，当文件到设定的保存时间时才会删除，
数据的保存时间(单位:小时，默认为7天)
log.retention.hours=168
因为Kafka读取消息的时间复杂度为O(1)，与文件大小无关，所以这里删除过期文件与提高Kafka性能并没有关系，所以选择怎样的删除策略应该考虑磁盘以及具体的需求。
点对点模式 VS 发布订阅模式
传统的消息系统中，有两种主要的消息传递模式：点对点模式、发布订阅模式。
①点对点模式
生产者发送消息到queue中，queue支持存在多个消费者，但是对一个消息而言，只可以被一个消费者消费，并且在点对点模式中，已经消费过的消息会从queue中删除不再存储。
②发布订阅模式
生产者将消息发布到topic中，topic可以被多个消费者订阅，且发布到topic的消息会被所有订阅者消费。而kafka就是一种发布订阅模式。
费者订阅，且发布到topic的消息会被所有订阅者消费。而kafka就是一种发布订阅模式。
消费端 pull 和 push
① push方式：由消息中间件主动地将消息推送给消费者；
优点：优点是不需要消费者额外开启线程监控中间件，节省开销。
缺点：无法适应消费速率不相同的消费者。因为消息的发送速率是broker决定的，而消费者的处理速度又不尽相同，所以容易造成部分消费者空闲，部分消费者堆积，造成缓冲区溢出。
② pull方式：由消费者主动向消息中间件拉取消息；
优点：消费端可以按处理能力进行拉取；
缺点：消费端需要另开线程监控中间件，有性能开销；
对于Kafka而言，pull模式更合适。pull模式可简化broker的设计，Consumer可自主控制消费消息的速率，同时Consumer可以自己控制消费方式，既可批量消费也可逐条消费，同时还能选择不同的提交方式从而实现不同的传输语义。

–	RabbitMQ	kafka
开发语言	erlang	scala，Java
架构模型	① 遵循AMQP；② 生产者、消费者、broker。③ broker由exchange、binding、queue组成；④consumer消费位置由broker通过确认机制保存；	① 不遵循AMQP；② 生产者、消费者、kafka集群、zookeeper集群；③ kafka集群由多个broker节点组成，消息按照topic分类，每个topic又划分为多个partition；④ broker无状态，offset由消费者指定；
可靠性	RabbitMQ可靠性更好，支持事务，支持消息确认机制	–
高可用	采用镜像队列，即主从模式，数据是异步同步的，当消息过来，主从全部写完后，回ack，这样保障了数据的一致性。	每个分区都有一个或多个副本，这些副本保存在不同的broker上，其中有且仅有一个分区副本作为leader，其余的作为follower，当leader不可用时，会选举follower作为新leader继续提供服务。只有leader提供读写服务，follower从leader同步拉取数据然后备份。
吞吐量	–	kafka更高
是否支持事务	支持	不支持
负载均衡	需要外部支持才能实现（如：loadbalancer）	kafka利用zk和分区机制实现负载均衡
是否支持消费者Push	不支持	支持
是否支持消费者Pull	支持	支持
适用场景	具有较高的严谨性，数据丢失的可能性更小，同时具备较高的实时性，用在对实时性、可靠性要求较高的消息传递上。	kafka的优势主要体现在吞吐量上，它主要用在高吞吐量的场景。比如日志采集。

原文链接：大白话 kafka 架构原理

lllanlovehua

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大白话 kafka 架构原理

大数据时代来临，如果你还不知道Kafka那就真的out了！据统计，有三分之一的世界财富500强企业正在使用Kafka，包括所有TOP10旅游公司，7家TOP10银行，8家TOP10保险公司，9家TOP10电信公司等等。LinkedIn、Microsoft和Netflix每天都用Kafka处理万亿级的信息。本文就让我们一起来大白话kafka的架构原理。kafka官网：http://kafka.apache.org/01 kafka简介Kafka最初由Linkedin公司开发，是一个分布式的、分区的、多副
复制链接

扫一扫