Protobuf序列化原理学习

Magic@

于 2024-07-26 11:58:37 发布

阅读量334

点赞数 3

文章标签：学习服务器 linux c++ java

本文链接：https://blog.csdn.net/shenfenxihuan/article/details/140712069

版权

Protobuf 序列化原理学习

消息：由于Protocp Buffer主要用于数据存储、网络通信的场景，将结构化的数据（数据结构或对象）进行序列化，生成二进制串来保存或传输。把要序列化的结构化数据称为**消息**。
T - L - V 的数据存储方式：即 Tag - Length - Value，标识 - 长度 - 字段值 存储方式。以 标识 - 长度 - 字段值 表示单个数据，最终将所有数据拼接成一个字节流。
T - V的数据存储方式：即 Tag - Value，标识 - 字段值 存储方式。Varint和Zigzag 编码后的格式就是这种，不需要记录长度，每个字节的最高位去记录下一个字节是否属于当前数字。

在这里插入图片描述

对于存储Varint编码数据，就不需要存储字节长度 Length，所以实际上Protocol Buffer的存储方式是 T - V；
若Protocol Buffer采用其他编码方式（如LENGTH_DELIMITED）则采用T - L - V
结论3：因为 Protocol Buffer对于数据字段值的 独特编码方式 & T - L - V数据存储方式，使得 Protocol Buffer序列化后数据量体积如此小

如：

对于 int32 类型的数字，一般需要 4个字节表示；
若采用 Varint编码，对于很小的 int32 类型数字，则可以用 1个字节来表示
虽然大的数字会需要 5 个字节来表示，但大多数情况下，消息都不会有很大的数字，所以采用 Varint方法总是可以用更少的字节数来表示数字

Varint 编码的不足：

在计算机内，负数一般会被表示为很大的整数。（因为计算机定义负数的符号位为数字的最高位）

因此，使用**Varint** 编码负数一定需要5个bytes。

解决方案： Protocol Buffer 定义了 sint32 / sint64 类型表示负数，先使用 Zigzag 编码（将有符号数转换成无符号数），再采用 Varint编码，从而用于减少编码后的字节数。

对于int32 / int64 类型的字段值（正数），Protocol Buffer直接采用 Varint编码
对于sint32 / sint64 类型的字段值（负数），Protocol Buffer会先采用 Zigzag 编码，再采用 Varint编码

摘抄搬运自：

关注