TrafficFormer 针对流量数据的高效预训练模型

最新推荐文章于 2024-11-11 21:30:41 发布

爱喝白开水a

最新推荐文章于 2024-11-11 21:30:41 发布

阅读量1.1k

点赞数 7

文章标签： transformer 大模型微调人工智能 LLM 大模型大模型学习路线预训练

本文链接：https://blog.csdn.net/python123456_/article/details/142789066

版权

今天为大家介绍一篇清华大学徐恪教授和李琦老师团队针对流量数据的预训练模型工作《TrafficFormer: An Efficient Pre-trained Model for Traffic Data》，第一作者是周广猛博士。该工作已经被国际网络安全四大顶级会议之一的 IEEE Symposium on Security and Privacy 2025 录用。

网络流量数据具有较强的领域知识，这使得流量数据的标记非常困难，而缺乏带标注流量数据制约了智能流量分析的准确性。作为解决带标注数据稀缺问题的一种方式，预训练模型技术已经在视觉和语言领域证明了其有效性。但是在网络领域，预训练模型的探索才刚刚开始。本文提出了针对网络流量的预训练模型TrafficFormer以提升流量检测和协议理解的准确率。具体地，在预训练阶段提出了更细粒度的预训练任务增强对流量数据的表示能力，在微调阶段提出利用字段随机初始化特性实现流量数据增强的方法。此外，除了评估流量预训练模型对网络主体的行为识别外，本文还提出了多个协议理解任务来评估预训练模型对协议交互逻辑的理解。TrafficFormer在六个流量分类任务上取得了最优的表现，并且在协议理解任务上显著优于最新的预训练流量模型。

研究背景

流量数据是网络协议交互产生的数据，其一方面包含了相应协议的交互逻辑信息，另一方面也蕴含了交互主体的行为信息，比如使用不同的APP、浏览不同的网页表现出的流量行为是不同的。对于流量的分析和识别对于网络安全以及网络管理是非常重要的。流量分析识别工作早期主要依赖于专家知识，通过特征工程构建专家特征，然后输入机器学习模型进行学习。这些方法取得了比较好的效果，但无论是机器学习方法还是深度学习方法，大量的带标注数据是模型取得优越效果的关键。不同于传统的文本、图片、声音数据，流量数据标注的门槛和难度更高。标注流量数据需要标注人员具备网络协议知识，同时对具体场景（比如某种网络攻击的原理）比较熟悉。此外，流量产生的速度非常快，数据量非常庞大，而且行为模式随时间也在不断变化，依赖人工标注是不现实的。预训练模型技术是一种解决带标注数据稀缺问题的方式，其包括预训练和微调两个阶段。预训练阶段基于无标注数据采用自监督的方式学习一般知识，微调阶段基于带标注数据采用监督学习方式学习特定任务知识。相比于文本、图片数据，流量数据的体量更加庞大，而且行为模式复杂，因此将预训练模型技术应用到流量分析识别任务中是非常适合的。

研究动机

之前的研究工作多关注流量数据表示上，将流量数据转化为视觉领域或自然语言领域的输入形式，进而直接应用相关领域预训练技术。PERT通过bigram方式将16进制数据包内容转化为字；ET-BERT将连续相同方向的数据包看作一个句子，从而沿用自然语言领域预训练技术；YaTC将每条流处理为一张图片，从而沿用视觉领域预训练技术。这些工作忽视了对流量数据的特点分析及针对性设计。

流量数据的三个特点为：

流量数据是一种序列数据。 流量中的数据包具有显著的先后关系。
数据包的方向和顺序是流量数据的重要语义。 流量是通信双方执行网络协议产生的，输入单元具有方向性。而且数据包的顺序需要满足协议交互逻辑，不符合顺序的数据包会被认为是无效的。
流量数据的数据包头部是结构化的，而且具有很强的信息冗余。

针对上述难点，TrafficFormer在预训练阶段保留了自然语言领域中的遮蔽建模预训练任务MLM学习输入单元的序列关系，设计了同源-同向-同流多分类预训练任务SODF挖掘输入单元的方向和顺序信息；在微调阶段设计了保持流量语义的流量数据增强方法RIFA使模型减少对不相关信息的依赖，快速定位到有价值信息。

论文工作：TrafficFormer

TrafficFormer整体框架如图所示，总体上包含预训练和微调两个阶段。预训练阶段的任务为遮蔽burst建模和同源-同向-同流多分类任务，训练完的模型主体可以迁移到下游的各个任务，比如恶意软件识别、网站指纹识别以及新提出的协议交互理解任务等。

3.1 预训练阶段

遮蔽burst建模任务和传统的遮蔽语言建模类似，都是遮蔽输入中的某些token，让模型进行预测，根据实际token和预测token计算损失。

ET-BERT中第二个预训练任务为同源burst预测任务，该任务本身比较简单，模型可以通过简单的一些字段，比如五元组就可以判断两个burst是否同源。此外该任务不能学习到数据包的方向和顺序信息。考虑到SBP任务存在的这些问题，我们提出了同源-同向-同流多分类任务。首先将流划分为多个burst，再将每个burst切分为两段，最后组合切分的burst构建不同的类别。上图展示了三条流的前三个burst的示意图，这些burst共组合形成5种类别。

类别1：一个正常的burst，切分后的两段burst中间添加[SEP]符号进行分隔。第一段burst中的段标识为1，第二段burst中的段标识为2。
类别2：同类别1类似，不同之处是将一个burst切分后的两段交换位置。
类别3：连续的两个burst，第一个burst之后添加[SEP]符号进行分隔。第一个burst中每个词的段标识为1，第二个burst中每个词段标识为2。
类别4：同类别3类似，不同之处是交换两个burst的位置。
类别5：随意组合两条流中的burst，burst之间添加[SEP]符号进行分隔。

类别1和类别2的目的是让模型学习到同一方向上数据包的顺序（同源），类别3和类别4的目的是让模型学习到数据包的方向信息（同向），类别5的目的是让模型学习到流的概念（同流）。

3.2 微调阶段

考虑到下游微调任务的数据量较少的问题，我们提出一种流量数据增强方法。网络协议中一些字段本身是随机初始化的，字段值本身没有任何含义，因此也对分类不造成任何影响。下表列举了常见协议中的随机初始化字段。

数据增强的具体方法是随机变化数据包中随机初始化的字段。同时考虑到字段的变化规律相比于字段值往往是更重要的，我们改变字段初始值后在后续数据包中保持其变化规律。数据增强后，模型可以不依赖于这些字段的值，更关注于值的变化或者其他字段，从而从大量的数据中快速提取有价值的信息，有助于模型快速发现分类边界。相比于基于深度学习的方法，TrafficFormer的方法直接修改原始数据，增强后的数据不改变原有语义。

实验结果

我们选择了三个不同来源的数据集进行预训练，包括ISCX-NonVPN（2016年）、CICMalAnal2017（2017年）、Browser数据集（2020年），总数据量在20GB左右。

4.1 流量分类任务

我们选择了六个数据集作为微调数据集，包括Cross-Platform(Android)、Cross-Platform(iOS)、ISCX-VPN(Service)、ISCX-VPN(App)、CSTNET-TLS 1.3、USTC-TFC，其中包括了应用指纹识别、服务类型识别、网站指纹识别、恶意软件识别四种具体微调任务。