基于递归聚类的报文结构提取方法

最新推荐文章于 2023-10-04 17:12:23 发布

Tusaka

最新推荐文章于 2023-10-04 17:12:23 发布

阅读量1.2k

点赞数

分类专栏：格式推断文章标签：递归聚类

本文链接：https://blog.csdn.net/Tusaka/article/details/52760660

版权

论文提出一种基于递归聚类的报文结构提取方法。首先，通过基本块划分和初始聚类得到粗粒度报文分组。接着，使用渐进多序列比对算法确定字段边界，识别FD字段。最后，通过验证候选FD字段实现细粒度聚类，得到报文格式，用于状态机推断。

摘要由CSDN通过智能技术生成

论文提出首先对样本进行基本块的划分并进行初始聚类,得到粗粒度的报文分组，随后在基本块级通过渐进多序列比对算法得到最佳对齐，随后通过对字节变化率的计算等进行字段划分（此处还包括对FD字段的识别），最后在字段划分得到的结果的基础上，通过对候选FD字段的验证再对报文进行聚类，得到细粒度的同类型报文，每一类型的报文都对应着一种报文格式，这可以用来进行状态机的推断。

一、基本块的划分

对原始报文进行处理，根据是否可显示对报文进行扫描，不可显示则标注为二进制块，可显示标注为字符块。因为二进制块也有可能会在可显示字符的范围内，所以采用策略是将连续出现的至少5个以上的可显示字符合并标注为字符块。扫描完成后，再把连续的二进制块合并，如此，对每一个样本报文，都能够将其划分为一系列的基本块。
划分基本块的时候，可以将常见的分隔符考虑进去，将其作为二进制块，这样子其实是将基本块划分地和目标更加接近了，可以提高准确率。
得到了基本块之后，按照字符块和二进制块的基本块序列对报文进行比较，将相同格式报文聚成一类，这就是初始聚类，初始聚类可以通过设置各种条件来进行改进（论文中办法是：由于块是交替出现的，只要两个报文的基本块序列长度相同，而且第一个基本块的类型是一样的，那么就将这两个报文分到同一个分组）。如此可以提高后面对同一类型报文的渐进比对算法效率，因为已经把格式有一定相似性的报文聚到了一起了，不过是一个很粗的分类，需要通过渐进比对算法获取字段之后进行再分类。