Protobuf文件破解思路分析

最新推荐文章于 2024-05-14 19:58:54 发布

lance_42

最新推荐文章于 2024-05-14 19:58:54 发布

阅读量2.4k

点赞数 1

分类专栏：私有博客

本文链接：https://blog.csdn.net/gsfgsdfsdf/article/details/96728686

版权

本文介绍在没有proto源文件情况下，如何基于Python设计ProtoBuf文件的反序列化算法。通过理解proto编码原理，主要步骤包括解析key字节、长度字节和value字节。在解析过程中，重点处理varint编码格式，考虑到sint类型但不作特殊处理。解析过程中遇到type为2时，通过检查解析结果是否包含乱码来判断是struct还是string。

摘要由CSDN通过智能技术生成

背景

本文章基础是在没有proto结构源文件的情况下进行proto文件的反序列化，关于proto的基础知识和编码原理可以参考下面链接中的介绍，设计代码基于Python，在这里只介绍一下算法设计思路。
proto编码原理

刚拿到proto文件的时候也是一头雾水，一开始在网上搜索了很多博客和资料都是根据protobuf源文件和与语言配套的protobuf程序生成解析文件，没有结构文件就只能手动去解析二进制文件。官方提供的protoc可以在没有源码的情况下反序列化，最后解析结果可能存在小部分偏差（主观判断），证明理论上没有源文件也可以进行解析，在查看了一下proto文件编码的原理之后，有了一个大体的思路。
有几个博客简单介绍了手动按字节解析简单的proto文件的例子，
protobuffer编码原理
 protobuf流的反解析
上面提到的原理和编码规则就不再赘述了，直接上逻辑。

设计思路

整体的设计思路经过两次变化，其实都可行，只不过结果的准确率有些不同。总体逻辑大概分为三步：
1.解析key字节
2.解析后续长度字节
3.解析value字节
编码原理还是十分复杂的，大体基于varint编码格式，主要是key字节的变长读取和int类型的读取，包括int32、64等。编码规则中也存在sint类型的编码，采用zigzag编码来减少无符号数的编码字节长度，但是由于sint和int的编码type都是0，无法判断是哪一种数据类型，同时在调研了很多proto文件的数据格式定义中无符号数的出现频率很低，所以在此逻辑中不考虑sint类型整型数字和浮点数的解析。

从读二进制文件开始，现将二进制文件转成了单个字节的01字符串，方便后续判断。字节码的顺序是这样的：

key	(length)	value
00001010	00010100	01101000

上面表格翻译过来的内容是：field为1，type为2，然后后面的长度为20，value第一个字节翻译过来是‘h’。key的第一个字节最高位是0，代表没有下一个字节，然后看后面7位；后三位是type，前面是field值，比如00001010，010代表type,换算成10进制就是2，00001为field，换算成10进制就是1，如果field的值超过15的话，可以用两个字节表示，如：10001010 00000001，最高位为1代表还有下一字节，然后读取下一字节，最高位为0，key读取结束。varint采用的是小端窗口，后面字节在前面，去掉最高位后为0000001 0001010，field为0000001 0001，换算后是field的值为17，type仍为2，长度的计算方式同理。

一个二进制字节流传进来，可以看做n个key-value键值对，如果value的type是2，即struct或者string在key的后面就会有一段length的字节，length的编码同样也是varint；如果type是0，即整形数字，就会按照varint直接向后解析，直到最高位是0解析结束。
这样看来流程就很简单了，首先判断key，看type的类型，如果为0就直接解析varint型编码字节，如果为2就先解析一个长度的varint编码，然后解析此长度的字节为字符串。
下面看一下具体解析的流程图；

具体流程已经很清晰了，只有一个问题，如何判断type为2的时候是struct还是string？理论上暂时没有发现有效的标志可以判断，所以采取一种折中的方式，先将字节码看做string，然后判断解析之后的结果是否存在乱码，如果存在就返回解析为struct，不存在就继续向后解析；在设计过程中可以根据实际情况进行适当的剪枝，提高准确度和效率。
附上部分代码，仅供参考：

        def process(self, opdatas):
        self

最低0.47元/天解锁文章

lance_42

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Protobuf文件破解思路分析

proto文件反序列化背景设计思路先放这有时间再写背景本文章基础是在没有proto结构源文件的情况下进行proto文件的反序列化，关于proto的基础知识和编码原理可以参考下面链接中的介绍，设计代码基于Python，在这里只介绍一下算法设计思路。proto编码原理刚拿到proto文件的时候也是一头雾水，一开始在网上搜索了很多博客和资料都是根据protobuf源文件和与语言配套的proto...
复制链接

扫一扫