Apache Pulsar MQ 学习笔记

Shi Peng

已于 2022-02-19 11:34:23 修改

阅读量1.9k

点赞数

分类专栏：中间件-Kafka 文章标签： apache 学习 kafka

于 2021-05-31 19:08:56 首次发布

本文链接：https://blog.csdn.net/shijinghan1126/article/details/117418520

版权

中间件-Kafka 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

一、Pulsar简介

Apache Pulsar是一个企业级分布式消息系统，最初由雅虎在2016年开源。

Pulsar的关键特性：
1）Pulsar的单个实例原生支持多个集群，可跨机房再集群间无缝地完成消息复制
2）极低的发布延迟和端到端延迟
3）可无缝扩展到超过100万个topic
4）客户端简单，支持java, go, python, c++
5）支持多种topic订阅模式（独占订阅、共享订阅、故障转移订阅）
6）通过Apache BookKeeper提供的持久化消息存储机制，保证消息船体。

由轻量级serverless计算框架Pulsar Functions实现流原生的数据处理
基于Pulsar Functions的serverless connector框架Pulsar IO使得数据更易移入、移出Apache pulsar
分层式存储可在数据陈旧时，将数据从热存储卸载到冷/长期存储（如S3）中

二、Pulsar比Kafka好在哪

Pulsar旨在取代Kafka多年的主宰地位。Pulsar在很多情况下，提供了比Kafka更快的吞吐和更低的延迟，并为开发人员提供了一组兼容的API，让他们可以很轻松地从Kafka切换到Pulsar。Pulsar最大优点在于他提供了比Kafka更简单明了、更健壮的一些列操作功能，特别是在解决可观察性、地域复制和多租户访问。在运行大型Kafka集群方面感觉有困难的企业可以考虑转向使用Pulsar。

2.1、Pulsar vs Kafka

2.1.1、模型概念

Kafka：producer - topic - consumer group - consumer
Pulsar：producer - topic -subscription - consumer

2.1.2、消费模式：Pulsar没强哪去

Kafka：主要在stream流模式，对单个partition是独占消费，没有共享queue的消费模式

Pulsar：提供了统一的消息模型和API。流（stream）模式：独占和故障切换订阅模式；队列（queue）模型：共享订阅模式。

2.1.3、消息确认（ack）

Kafka ： offset commit
Pulsar：使用专门的cursor管理。累计确认和Kafka效果一样；提供单条或选择性确认。

2.1.4、消息保留

Kafka：根据设置的保留时间来删除消息，有可能消息没有被消费就过期被删除了。不支持TTL
Pulsar：消息只有被所有订阅中消费后才会删除，不会丢失数据。也允许设置保留期，保留被消费的数据。支持TTL。

三、系统架构和设计理念

3.1、Pulsar的分层架构

Pulsar和其他消息系统最根本的不同是采用了分层架构。Pulsar集群由两层组成：
1）无状态服务层：由一组接收和传递消息的broker组成
2）有状态的持久层：由一组明文bookies的Apache BookKeeper存储节点组成，可持久化地存储消息。

下图为Pulsar的部署架构：
在这里插入图片描述
在Pulsar客户端中，提供生产者和消费者接口，应用程序使用Pulsar客户端来连接broker来生产和消费消息。

Pulsar客户端不直接与存储层Apache BookKeeper交互。客户端也没有直接的BookKeeper访问权限。这种隔离，为Pulsar实现安全的多租户统一身份验证模型提供了基础。

Apache Pursar客户端支持的语言为：Java, C++, Python, Go, Websocket
Apache Pursar还提供了一组兼容Kafka的API，用户可以通过简单地更新依赖关系并将客户端指向Pulsar集群来迁移现有的Kafka应用程序，这样现有的Kafka应用程序可以立即与Apache Pulsar一起使用，无需更改任何代码。

3.1.1、Broker层：无状态服务层

Broker集群在Pulsar中形成了无状态层。即服务层是“无状态的”，因为Broker实际上并不在本地存储任何数据消息。消息都存到啦分布式日志存储系统（Apache BookKeeper）中。

每个主题分区（Topic Partition）由Pulsar分配给某个broker，该broker称为该topic的所有者。Pulsar生产者和消费者连接到主题分区的所有broker，以向所有者代理发送消息并消费消息。

如果一个broker故障，Pulsar会自动将其拥有的主题分区移动到集群中剩余的某一个可用的broker中。这里要强调的是，由于broker是无状态的，当topic发送迁移时，Pulsar只是将所有权从一个broker转移到另一个broker，在这个过程中，数据不需要做任何迁移。

下图显示了一个拥有4个Broker的Pulsar集群，其中4个主题分区分布在4个Broker中。每个Broker拥有并为一个主题分区提供消息服务。

在这里插入图片描述

3.1.2、BookKeeper层：持久化存储层

Apache BookKeeper是Apache Pulsar的持久化存储层。Pulsar中的每个主题分区，本质上都是存储在Apache BookKeeper中的分布式日志。

每个分布式日志，又被分成多个Segment段，每个Segment段作为Apache BookKeeper中的一个Ledger，均匀分布并存储在BookKeeper集群中的多个Bookie(Apache BookKeeper的存储节点)中。-- 这点同Kafka类似。

Segment的创建时机包括：
1）基于配置Segment的大小
2）基于配置的滚动时间
3）当Segment的所有者被切换

通过Segment分段的方式，主题分区中的消息可以均匀和平衡地分布在集群中的所有bookie中。这意味着主题分区的大小不仅受一个节点容量的限制；相反，他可以扩展到整个BookKeeper集群的总容量。

下图说明了一个分为x个Segment段的主题分区。每个Segment段存储三个副本。所有Segment都分布并存储在4个Bookie中。

在这里插入图片描述

3.1.2.1、Segment为中心的存储

存储服务的分层架构和以Segment为中心的存储，是Apache Pulsar（使用Apache BookKeeper）的两个关键设计理念。这样的设计为Pulsar提供了如下好处：
1）无限制的主题分区存储-- 这个Kafka也支持
2）即时扩展，无需数据迁移 – 这个Kafka Broker是有状态，所以不如Pulsar。

无缝Broker故障恢复
无缝集群扩展
无缝的存储（Bookie）故障恢复
3）独立的可扩展性 – 这点和2有什么区别么？

1、无限制的主题分区存储 – 这点Kafka不具备，节点扩容时，需要把partition的数据做迁移，因为kafka是以partition为单位，而Pulsar不需要迁移，它是以segment为单位

由于主题分区被分成多个segment，而segment在BookKeeper集群中的每个节点上分布式存储，所以主题分区不受单一节点容量的限制，相反，主题分区可以扩容到整个BookKeeper集群的总容量，只需要添加Bookie节点即可扩展集群数量。
这就是为什么Pulsar可以支持存储无限大小的流数据，并能以高效、分布式方式处理数据的关键。

2、即时扩展，无需数据迁移

Pulsar不同于Kafka的关键点，就是把消息服务和消息存储分两层，所以当主题从一个broker移动到另一个broker，只需要修改broker和topic partition的映射关系，而不需要数据迁移。-- 这点相比kafka broker故障来说，无需数据迁移。

这一特性对高可用的许多方面至关重要。例如集群扩展，对Broker和Bookie失败的快速应对，下面将距离说明。

3、无缝broker故障恢复

下图说明了Pulsar如何处理broker失败的示例。
在这里插入图片描述
假设broker2由于某种原因（如停电）而不可用。Pulsar检测到Broker2已关闭，并立即将topic1-part2的所有权转移到broker3。在Pulsar中数据存储和数据服务分离，所以当Broker3接管topic1-part2的所有权时，他不需要复制partition的数据（如果是kafka就需要）。如果有新数据到来，他立即附加并存储为topic1-part2中的segment x +1。segment x + 1被分发并存储在Bookie1,2,4上。因为他不需要重新复制数据，所以所有权转移立即发生，而不会牺牲主题分区的可用性。

4、无缝集群容量扩展：存储中扩展时，无需数据迁移

下图说明了Pulsar如何处理集群的容量扩展。当Broker 2将消息写入topic1-part2的segmetn x时，将bookie x和bookie y添加到集群中。broker2 立即发现新加入的bookie x和 bookie y。然后Broker将尝试将segment x + 1和X + 2的消息存储到新添加的bookie中。新添加的bookie立刻被使用起来，流量立即增加，而不会重新复制任何数据。除了机架感知和区域感知策略之外，Apache BookKeeper还提供资源感知的放置策略，以确保流量在集群中的所有存储之间保持平衡。

在这里插入图片描述

5、无缝的存储（Bookie）故障恢复

下图说明了Pulsar（通过Apache BookKeeper）如何处理bookie的磁盘故障。
在这里插入图片描述
Apache BookKeeper中副本修复是Segment（甚至是Entry）级别的多对多快速修复，这比重新复制整个topic partition要精细，只会复制必须的数据。这意味着Apache BookKeeper可以从bookie3和bookie4读取Segment4中的消息，并在bookie1处修复segment4。所有的副本修复都在后台进行，对broker和应用透明。

即使有bookie节点故障发生，通过添加新的可用的bookie来替换故障的bookie，所有broker都可以继续接受接入，而不会牺牲主题分区的可用性。

6、独立的可扩展性

由于消息服务层和持久层存储是分开的，所以Pulsar可独立地扩展存储层和服务层。这种独立的扩展，更具有成本效益：
1）当你需要支持更多的消费者或生产者时，可以简单地添加更多的broker。主题分区将立即在brokers中做平衡迁移，一些主题分区的所有权立即转移到了新的broker。

2）当你需要更多存储空间来将消息保存更长时间时，只需要添加更多的bookie。通过智能资源感知和数据放置，流量讲自动切换到新的bookie中。Pulsar中不会涉及到不必要的数据迁移，不会讲旧数据从现有的存储节点重新复制到新的存储节点。

四、Pulsar vs Kafka

Kafka和Pulsar都有相似的消息概念：客户端通过topic和消息系统交互，每个topic都有多个Partition。

但是，Pulsar和Kafka的根本区别在于:
1）Kafka是以Partition为存储中心
2）Pulsar是以Segment为存储中心
在这里插入图片描述
上图显示了以分区为中心和以Segment为中心的差异。

在Kafka中，partition只能存储哎单个节点上，并复制到其他节点，其单个partition容量受最小节点容量的限制。这意味着kafka要添加broker节点时，需要对partition做重新的rebalance, 这样就需要做某些整个partition数据的迁移（例如broker有3个节点，原来有6个partition，那么再扩容3个节点，原来的4~6号partition需要复制到新的3个节点上去）。

数据迁移非常昂贵，且可能出错，会耗费网络IO，维护人员在执行此操作时必须非常消息，以避免破坏生产系统。

Kafka中分区数据的重新copy，不仅发送在以分区为中心的集群扩容节点时，其他Case也可能会做数据迁移，例如你将partition配置为3个副本，这时，如果丢失了一个副本，则必须重新复制完整的整个分区后，分区才可以再次可用。

在用户遇到故障之前，通常会忽略这种缺陷，因为许多情况下，在短时间内仅是对内存中缓存数据的读取。当数据被保存到磁盘后，用户将越来越多地不可避免地遇到数据丢失，故障恢复等问题，特别是在需要将数据长时间保存的场合。

接下来看Pulsar的优势：
在Pulsar中，同样是以分区为逻辑单元，但以Segment为物理存储单元，分区随时间的推移会进行分段，并在整个集群中均衡分布，旨在有效地迅速扩张。

Pulsar是以Segment为中心的，因此在扩容时，不需要数据重新平衡和copy，旧数据不会被重新复制，这要归功于BookKeeper中使用可扩展的以Segment为中心的分布式日志存储系统。

通过利用分布式日志存储，Pulsar可最大化Segmetn放置选项，实现高写入和高读取可用性。例如，使用BookKeeper，副本设置等于2，只要任何2个Bookie启动，就可以对主题分区进行写入。对于读取可用性，只要主题分区的副本集中有1个处于活动状态，用户就可以读取他，而不会出现任何不一致。

总之，Pulsar这种独特的基于分布式日志存储的以Segment为中心的发布/定于消息系统提供了很多优势：例如可靠的流式系统，包括无限制的日志存储，无需分区重新平衡的即时扩展，快速复制修复以及最大化数据放置实现高可入和读取可用性选项。

总结，Pulsar比kafka好在：
1）以segment为单位，扩容时无需数据迁移
2）broker是无状态服务

https://blog.csdn.net/cpongo4/article/details/89118556