kafka原理与起步使用（+zookeeper）

最新推荐文章于 2022-10-24 08:31:53 发布

Omndzzz

最新推荐文章于 2022-10-24 08:31:53 发布

阅读量581

点赞数

分类专栏：学习记录文章标签： zookeeper kafka flink

本文链接：https://blog.csdn.net/weixin_40366684/article/details/106258816

版权

kafka原理与起步使用（+zookeeper）

https://www.jianshu.com/p/d3e963ff8b70
https://blog.csdn.net/java_66666/article/details/81015302
http://kafka.apachecn.org/quickstart.html

https://blog.csdn.net/liyiming2017/article/details/83035157

https://www.cnblogs.com/ultranms/p/9585191.html

kafka原理

Kafka是一个分布式流处理平台，是一种高吞吐量的分布式发布订阅消息系统。
它适合两大类别的应用：
1.构造实时流数据管道，它可以在系统或应用之间可靠地获取数据。 (相当于message queue)
2.构建实时流式应用程序，对这些流数据进行转换或者影响。 (就是流处理，通过kafka stream topic和topic之间内部进行变化)

kafka的特性及背后的方法支持

为了理解Kafka是如何做到以上所说的功能，从下面开始，我们将深入探索Kafka的特性。
首先是一些概念:
1.Kafka作为一个集群，运行在一台或者多台服务器上.
2.Kafka 通过 topic 对存储的流数据进行分类。
3.每条记录中包含一个key，一个value和一个timestamp（时间戳）。
Kafka有四个核心的API:
1.The Producer API 允许一个应用程序发布一串流式的数据到一个或者多个Kafka topic。
2.The Consumer API 允许一个应用程序订阅一个或多个 topic ，并且对发布给他们的流式数据进行处理。
3.The Streams API 允许一个应用程序作为一个流处理器，消费一个或者多个topic产生的输入流，然后生产一个输出流到一个或多个topic中去，在输入输出流中进行有效的转换。
4.The Connector API 允许构建并运行可重用的生产者或者消费者，将Kafka topics连接到已存在的应用程序或者数据系统。比如，连接到一个关系型数据库，捕捉表（table）的所有变更内容。

Topics和日志

让我们首先深入了解下Kafka的核心概念:提供一串流式的记录— topic 。

Topic 就是数据主题，是数据记录发布的地方,可以用来区分业务系统。Kafka中的Topics总是多订阅者模式，一个topic可以拥有一个或者多个消费者来订阅它的数据。

对于每一个topic， Kafka集群都会维持一个分区日志，如下所示：

每个分区都是有序且顺序不可变的记录集，并且不断地追加到结构化的commit log文件。分区中的每一个记录都会分配一个id号来表示顺序，我们称之为offset，offset用来唯一的标识分区中每一条记录。

Kafka 集群保留所有发布的记录—无论他们是否已被消费—并通过一个可配置的参数——保留期限来控制. 举个例子，如果保留策略设置为2天，一条记录发布后两天内，可以随时被消费，两天过后这条记录会被抛弃并释放磁盘空间。Kafka的性能和数据大小无关，所以长时间存储数据没有什么问题.

事实上，在每一个消费者中唯一保存的元数据是offset（偏移量）即消费在log中的位置.偏移量由消费者所控制:通常在读取记录后，消费者会以线性的方式增加偏移量，但是实际上，由于这个位置由消费者控制，所以消费者可以采用任何顺序来消费记录。例如，一个消费者可以重置到一个旧的偏移量，从而重新处理过去的数据；也可以跳过最近的记录，从"现在"开始消费。

这些细节说明Kafka 消费者是非常廉价的—消费者的增加和减少，对集群或者其他消费者没有多大的影响。比如，你可以使用命令行工具，对一些topic内容执行 tail操作，并不会影响已存在的消费者消费数据。

日志中的 partition（分区）有以下几个用途。第一，当日志大小超过了单台服务器的限制，允许日志进行扩展。每个单独的分区都必须受限于主机的文件限制，不过一个主题可能有多个分区，因此可以处理无限量的数据。第二，可以作为并行的单元集—关于这一点，更多细节如下

分布式

日志的分区partition （分布）在Kafka集群的服务器上。每个服务器在处理数据和请求时，共享这些分区。每一个分区都会在已配置的服务器上进行备份，确保容错性.

**每个分区都有一台 server 作为 “leader”，零台或者多台server作为 follwers 。leader server 处理一切对 partition （分区）的读写请求，而follwers只需被动的同步leader上的数据。**当leader宕机了，followers 中的一台服务器会自动成为新的 leader。每台 server 都会成为某些分区的 leader 和某些分区的 follower，因此集群的负载是平衡的。

生产者

生产者可以将数据发布到所选择的topic（主题）中。生产者负责将记录分配到topic的哪一个 partition（分区）中。可以使用循环的方式来简单地实现负载均衡，也可以根据某些语义分区函数(例如：记录中的key)来完成。下面会介绍更多关于分区的使用。

消费者

消费者使用一个消费组名称来进行标识，发布到topic中的每条记录被分配给订阅消费组中的一个消费者实例.消费者实例可以分布在多个进程中或者多个机器上。

如果所有的消费者实例在同一消费组中，消息记录会负载平衡到每一个消费者实例.

如果所有的消费者实例在不同的消费组中，每条消息记录会广播到所有的消费者进程.

如图，这个 Kafka 集群有两台 server 的，四个分区(p0-p3)和两个消费者组。消费组A有两个消费者，消费组B有四个消费者。

通常情况下，每个 topic 都会有一些消费组，一个消费组对应一个"逻辑订阅者"。一个消费组由许多消费者实例组成，便于扩展和容错。这就是发布和订阅的概念，只不过订阅者是一组消费者而不是单个的进程。

在Kafka中实现消费的方式是将日志中的分区划分到每一个消费者实例上，以便在任何时间，每个实例都是分区唯一的消费者。维护消费组中的消费关系由Kafka协议动态处理。如果新的实例加入组，他们将从组中其他成员处接管一些 partition 分区;如果一个实例消失，拥有的分区将被分发到剩余的实例。这张图实际上就是描述了这个消费关系的整理，通过这个机制我们可以想见，如果我们想要一个应用的进程来对数据进行处理那么我们只需要在一个只有一个消费者（我们的进程࿰

最低0.47元/天解锁文章

Omndzzz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kafka原理与起步使用（+zookeeper）

kafka原理与起步使用（+zookeeper）https://www.jianshu.com/p/d3e963ff8b70https://blog.csdn.net/java_66666/article/details/81015302http://kafka.apachecn.org/quickstart.htmlhttps://blog.csdn.net/liyiming2017/article/details/83035157https://www.cnblogs.com/ultranm
复制链接

扫一扫