kafka的运行及原理

最新推荐文章于 2024-07-02 10:03:51 发布

Road_to_programmers

最新推荐文章于 2024-07-02 10:03:51 发布

阅读量352

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/HongKong_Python/article/details/80232194

版权

Python 专栏收录该内容

41 篇文章 0 订阅

订阅专栏

什么是kafka

kafka是一个开源流处理平台，由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理，也是为了通过集群来提供实时的消息。简单的来说，它就是一个消息中间件，天然分布式、支持集群的，专注于数据吃的存放缓存的。

特性

kafka是一种高吞吐量的分布式发布订阅消息系统有如下特性：
1 同时为发布和订阅提供高吞吐量：通过I/O的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。即使是非常普通的硬件kafka也支持每秒数百万的消息。
2 消息持久化：将消息持久化到磁盘，可用于批量消费。
3 分布式支持server间的消息分区及分布式消费，同时保证每个partition内的消息顺序传输。这样易于向外扩展，所有的producer，broker，consumer都会有多个均为分布式的，无需停机即可展开机器。
4消费者消息采用pull(拉取)模式：消息被处理的状态实在consumer端维护，而不是由server端维护，broker无状态，consumer自己保存offset。
5 支持online（在线）和offline（离线）的场景：同时支持离线数据处理和实施数据处理

kafka运行流程

首先启动zookeeper和broker（kafka服务器），broker先去zookeeper中注册成为 leader（领导人）。如果brokers同时去zookeeper中注册，那么zookeeper将会通过投票选举出leader，其余的broker成为follower（跟随者），zookeeper必须为单数。如果broker是排队注册的话，则第一个注册的broker为leader。

生产者发布消息给指定的话题，如果话题不存才则zookeeper创建一个新话题，接着推送数据给broker。

消费者消费数据的话需要先去zookeeper中获得授权，才能在broker中拉取数据。