Kafka 常用的传输和序列化数据方式

傲雪凌霜，松柏长青

于 2024-09-03 20:25:37 发布

阅读量405

点赞数 9

分类专栏：后端大数据文章标签： kafka 分布式

本文链接：https://blog.csdn.net/Casual_Lei/article/details/141870941

版权

70 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Kafka 常用的传输和序列化数据方式。不同的方式有不同的优缺点，选择哪种方式通常取决于具体的应用场景、性能要求、数据兼容性需求等。以下是几种常见的方式，包括：

概述：ProtoBuf 是 Google 开发的一种语言中立、平台中立的高效二进制序列化格式，广泛应用于 RPC、数据传输和存储等场景。
优点：
- 高效的二进制格式，序列化和反序列化速度快，数据体积小。
- 支持模式演化（Schema Evolution），允许向后兼容地添加新字段。
- 多语言支持，适合跨语言的数据传输。
缺点：
- 需要预定义数据结构，灵活性稍差。
- 二进制格式不易调试和阅读。
使用场景：适合需要高性能、跨平台的数据传输场景，如微服务架构中的数据交换。

概述：JSON 是一种轻量级的数据交换格式，使用人类可读的文本来表示数据。
优点：
- 易于阅读和调试，直观地查看数据内容。
- 与大多数编程语言的兼容性好，几乎所有编程语言都提供了原生支持。
- 无需预定义数据结构，可以灵活地传递数据。
缺点：
- 性能相对较差，占用更多的带宽和存储空间。
- 解析速度慢于二进制格式，尤其在大数据量下。
使用场景：适用于需要调试和快速开发的场景，或与前端系统（如 Web 应用）进行交互时。

概述：Avro 是 Apache 提供的一种行优先的二进制序列化格式，特别适合与 Hadoop 生态系统结合使用。
优点：
- 支持模式演化（Schema Evolution），可以在不破坏现有数据的情况下，添加或删除字段。
- 提供了模式 (Schema) 的内嵌机制，接收方可以动态解析数据而无需提前了解数据结构。
- 数据压缩和高效的序列化/反序列化。
缺点：
- 设置和使用较为复杂，特别是在模式演化和兼容性方面。
使用场景：适合数据湖、数据仓库以及需要频繁更改数据结构的场景。

Kafka 默认使用的序列化方式是 字节数组 (Byte Array)，也就是 byte[]。这意味着 Kafka 的生产者和消费者在传输和接收消息时，默认处理的是原始的二进制数据。

生产者：当你使用 Kafka 生产者 API 时，默认情况下，你的消息键 (key) 和消息值 (value) 都会被序列化为字节数组。生产者可以将任何对象序列化为字节数组，只要提供相应的序列化器。
消费者：同样，Kafka 消费者接收消息时，默认情况下，消息键和值是以字节数组形式接收的。消费者可以根据需要将这些字节数组反序列化为对应的数据格式。

StringSerializer 和 StringDeserializer：用于将字符串转换为字节数组（序列化）或从字节数组转换为字符串（反序列化）。
ByteArraySerializer 和 ByteArrayDeserializer：直接使用字节数组作为消息的键和值。

选择合适的格式通常取决于你对性能、数据结构复杂性、跨平台需求和系统演进的需求。

关注

专栏目录