前段时间看流量分类方向的论文,看了许多中科大王伟老师的论文。受益匪浅,尝试着去学习借鉴。
因为流量分类的基本单元一般就是单个包,整条流或者双向流。通常使用双向流Bi-Flow作为基本单元,而通过网卡接口抓取的pcap文件或者pcapng文件一般都有很多个session组成。所以分流一般都是预处理过程的第一步。
1.获取流量数据集
首先使用了开源数据集ISCX VPN and NO-VPN。
ISCX开源数据集集合
2.pcapng转pcap
解压得到完整的pcap文件之后,首先要把其中的pcapng文件转化为pcap文件,可以通过脚本,或者直接用转化工具。包含的行为类型可以划分为以下几种:
聊天,邮件,文件传输,P2P,流媒体,语音电话共六种类型。
3.ps脚本批量处理
通过powershell脚本批量拆分pcap文件,得到每个session对应的单一文件。
脚本