大数据架构:Kafka

最新推荐文章于 2024-09-17 18:00:18 发布

一只土肥圆的猿

最新推荐文章于 2024-09-17 18:00:18 发布

阅读量4.1k

点赞数 2

分类专栏： kafka 大数据文章标签：大数据 kafka 发布订阅

本文链接：https://blog.csdn.net/cp_panda_5/article/details/79458327

版权

大数据同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

kafka

5 篇文章 0 订阅

订阅专栏

Kafka是一款高性能的分布式消息系统，支持消息的发布与订阅。具备高吞吐量、消息持久化、分布式存储等特点，适用于离线和在线消息消费场景。Kafka通过Producer生产消息，Consumer消费消息，Broker负责消息的存储与管理，Zookeeper则用于集群配置管理和服务协调。

摘要由CSDN通过智能技术生成

Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统，利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费

KAFKA：
分布式的发布-订阅消息系统，主要用于处理活跃的数据
特点：高吞吐量：
每秒百万级别的生产消费----生产消费
持久性：
由完善的消息存储机制，确保数据的高效安全的持久化----中间存储
分布式：
基于分布式的存储和容错机制----整体的健壮性

kafka的组件：
kafka服务：
Topic：(主题) Kafka处理的消息的不同分类，每个topic都是有分区的
Broker：(消息代理) Kafka中的一个kafka服务节点称为broker，用来存储消息数据，存在硬盘中
Partition：(Topic物理上的分区) 一个topic在broker上有一个或者多个partition，分区在创建topic的时候指定
Message：(消息) 通信的基本单位，一个Message在一个partition
kafka相关服务：
Producer：数据和消息的生产者，向kafka的一个topic发送消息
Consumer：消息和数据的消费者，定于topic并处理其发布的消息
Zookeepr：协调kafka的正常运行

Kakfa特点：

解耦：消息系统在处理过程中插入一个隐含、基于数据的接口层。
冗余：消息队列持久化，防止数据丢失。
扩展性：消息队列解耦处理过程，容易扩展处理过程。
可恢复性：处理过程失效，恢复后可继续处理。
顺序保证：消息队列保证顺序。Kafka保证一个Partition内消息有序。
异步通信：消息队列允许消息加入队列，等需要时再处理。

Kafka 的术语

Kafka 架构

典型Kafka架构

一个典型的Kafka集群中包含若干Producer（可以是web前端应用产生的消息，也可以是类似通过上网Flume收集上网日志产生的Events等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干Consumer Group，以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置及服务协同。Producer使用push模式将消息发布到broker，Consumer通过监听使用pull模式从broker订阅并消费消息。
多个broker协同合作，producer和consumer部署在各个业务逻辑中被频繁的调用，三者通过zookeeper管理协调请求和转发。这样一个高性能的分布式消息发布和订阅系统就完成了。图上有个细节需要注意，producer刡broker的过程是push，也就是有数据就推送给broker，而consumer给broker的过程是pull，是通过consumer主动去拉数据的，而不是broker把数据主动发送给consumer端的。

producer、consumer、broker以及zookeeper返四者的关系