基于递归聚类的报文结构提取方法

论文提出一种基于递归聚类的报文结构提取方法。首先,通过基本块划分和初始聚类得到粗粒度报文分组。接着,使用渐进多序列比对算法确定字段边界,识别FD字段。最后,通过验证候选FD字段实现细粒度聚类,得到报文格式,用于状态机推断。
摘要由CSDN通过智能技术生成

论文提出首先对样本进行基本块的划分并进行初始聚类,得到粗粒度的报文分组,随后在基本块级通过渐进多序列比对算法得到最佳对齐,随后通过对字节变化率的计算等进行字段划分(此处还包括对FD字段的识别),最后在字段划分得到的结果的基础上,通过对候选FD字段的验证再对报文进行聚类,得到细粒度的同类型报文,每一类型的报文都对应着一种报文格式,这可以用来进行状态机的推断。

一、基本块的划分

对原始报文进行处理,根据是否可显示对报文进行扫描,不可显示则标注为二进制块,可显示标注为字符块。因为二进制块也有可能会在可显示字符的范围内,所以采用策略是将连续出现的至少5个以上的可显示字符合并标注为字符块。扫描完成后,再把连续的二进制块合并,如此,对每一个样本报文,都能够将其划分为一系列的基本块。
划分基本块的时候,可以将常见的分隔符考虑进去,将其作为二进制块,这样子其实是将基本块划分地和目标更加接近了,可以提高准确率。
得到了基本块之后,按照字符块和二进制块的基本块序列对报文进行比较,将相同格式报文聚成一类,这就是初始聚类,初始聚类可以通过设置各种条件来进行改进(论文中办法是:由于块是交替出现的,只要两个报文的基本块序列长度相同,而且第一个基本块的类型是一样的,那么就将这两个报文分到同一个分组)。如此可以提高后面对同一类型报文的渐进比对算法效率,因为已经把格式有一定相似性的报文聚到了一起了,不过是一个很粗的分类,需要通过渐进比对算法获取字段之后进行再分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值