Apache Kafka的区块链实验

最新推荐文章于 2024-08-07 09:45:50 发布

dfsgwe1231

最新推荐文章于 2024-08-07 09:45:50 发布

阅读量267

点赞数

文章标签：区块链大数据运维

区块链技术和Apache Kafka具有共同的特征，这暗示了自然的亲和力。例如，两者共享“不可变的仅追加日志”的概念。如果是Kafka分区：

每个分区都是有序的，不可变的记录序列，这些记录连续地附加到结构化的提交日志中。 分区中的每个记录均分配有一个顺序ID号，称为偏移量，该ID唯一地标识分区中的每个记录[ Apache Kafka ]

而区块链可以描述为：

不断增长的记录列表（称为块），这些记录使用密码进行链接和保护。 每个块通常包含一个哈希指针（作为指向前一个块的链接），时间戳和交易数据[ Wikipedia ]

显然，这些技术共享不可变顺序结构的并行概念，其中Kafka特别针对高吞吐量和水平可伸缩性进行了优化，而区块链在保证序列的顺序和结构方面表现出色。

通过集成这些技术，我们可以创建一个用于试验区块链概念的平台。

Kafka为分布式对等通信提供了方便的框架，具有一些特别适合于区块链应用程序的特征。尽管此方法在不信任的公共环境中可能不可行，但在私有或联盟网络中可能会有实际用途。有关如何实现此功能的更多想法，请参见使用Apache Kafka扩展区块链。

此外，通过一些试验，我们也许能够利用已经在Kafka中实现的概念（例如，按分区分片）来探索解决公共网络中的区块链挑战（例如，可伸缩性问题）的解决方案。

因此，本实验的目的是采用简单的区块链实现并将其移植到Kafka平台。我们将采用Kafka的顺序日志的概念，并通过将条目与哈希值链接在一起来确保不变性。卡夫卡上的blockchain主题将成为我们的分布式账本。在图形上，它将如下所示：

Kafka是用于高吞吐量，实时消息传递的流媒体平台，即，它可以发布和订阅记录流。在这方面，它类似于消息队列或传统的企业消息传递系统。一些特征是：

高吞吐量：Kafka代理可以每秒吸收千兆字节的数据，每秒可以转换成数百万条消息。您可以在基准化Apache Kafka：每秒200万次写入中了解有关可伸缩性特征的更多信息。
竞争的消费者：向多个消费者同时传递消息（通常在传统消息传递系统中价格昂贵）并不比单个消费者复杂。这意味着我们可以为竞争的消费者设计产品，确保每个消费者仅接收一条消息，并实现高度的水平可扩展性。
容错能力：通过在群集中的多个节点之间复制数据，可以将单个节点故障的影响降至最低。
消息保留和重播：Kafka经纪人保留消费者抵销记录-消费者在消息流中的位置。使用此功能，即使消息已经传递，消费者也可以倒退到流中的先前位置，从而允许他们在某个时间点重新创建系统的状态。可以将代理配置为无限期保留消息，这对于区块链应用程序是必需的。

在Kafka中，每个主题都分为多个分区，每个分区都是一系列记录，这些记录不断地附加到该记录中。这类似于文本日志文件，其中在末尾添加了新行。分区中的每个条目均分配有一个顺序ID，称为偏移量，用于唯一标识记录。

可以通过偏移量查询Kafka代理，即，使用者可以将其偏移量重置为日志中的任意点，以从该点开始检索记录。

完整的源代码在这里。

对区块链概念有一些了解：以下教程基于Daniel van Flymen和Gerald Nash的实现，它们都是出色的实用介绍。下面的教程在将Kafka用作消息传输的同时，也以这些概念为基础。实际上，我们将在保持大多数当前实现的同时将Python区块链移植到Kafka。
Python的基本知识：该代码是为Python 3.6编写的。
Docker ：docker-compose用于运行Kafka代理。
kafkacat ：这是与Kafka进行交互的有用工具（例如，将消息发布到主题）

在启动时，我们的Kafka消费者将尝试做三件事：如果尚未创建一个新的区块链，则对其进行初始化；建立区块链主题当前状态的内部表示; 然后开始循环读取事务：

初始化步骤如下所示：