加密流量分类-论文11 FlowPic: A Generic Representation for Encrypted Traffic Classification and Applications


Traffic Classification and Applications Identification)

0、摘要

  利用了流中与时间相关和与大小相关的特性,将基本流量数据转换为直观的图片FlowPic,然后使用已知的图像分类深度学习技术cnn来识别流量类别(浏览、聊天、视频等)和正在使用的应用程序。但是不是使用负载数据形成的特征图。

1、介绍

  对于每个流,我们的方法根据数据包大小和数据包到达时间创建一个图像,我们称之为FlowPic。

  • 不依赖于数据包有效负载内容,因此不会侵犯隐私
  • 存储需求非常小,分类速度块,近乎实时,可以进行在线的流量分类

2、数据集介绍

  • 数据集:ISCX VPN-nonVPN、ISCX Tor-nonTor、作者团队自己捕获的数据集(命名为TAU)

  • 分类标签类别:

    1. VoIP

    2. Video

    3. Chat

    4. File Transfer

    5. Browsing

因此,对于五个类别,三种加密技术(非VPN、VPN、Tor),相当于15种流量。

显然这是关于流量类型识别

2.1 数据处理

  主要是写作者自己数据的收集的一些细节。

2.2 数据增强

  • 单向流分大小相等的块,实验中为每隔60s分为一个块

  • 但是为了进行数据增强,就将两个块之间进行重叠,重叠时间设置为45秒,这样块与块之间的间隔为15秒

    数据扩充过程是在将所有会话分割为一个训练集和一个测试集之后进行的,确保训练块和测试块之间在单个会话中没有重叠

image-20221118194010907

(数据增广后的每个类别的样本数目)

2.3 敏感性分析

关于数据增强是否真的有效?块长大小为多少合适?

结论:

  1. 在个别的流量类型里,数据增强效果不明显
  2. 60s的块大小最合适

3 构建图像

3.1 构建FlowPic

  • 提取每个单向流中的每个数据包的两个特征IP包大小到达时间

  • 构建一个基于流的二维直方图的图像,该图像可以被视为负载大小分布(PSD)

    • X轴为包的到达时间,Y轴为包的大小

      绝大多数包的大小都不超过1500字节(这是以太网MTU值),将y轴限制在1到1500之间。

      对于x轴,将2d直方图设置为正方形图像。为此,我们将所有到达时间值标准化为0到1500之间(即60秒映射为1500)

    • 生成1500x1500的直方图,直方图命名为FlowPic,存储在矩阵当中,作为模型输入

3.2 FlowPic分析

  这里说了作者在对生成FlowPic的一点分析,从而说明FlowPic能反映出网络流通特征复杂,使用深度神经网络模型进行特征提取并分类是很有必要的。

  • 分析1:在不同应用下,对视频流的分析:

image-20221118195503724

不用应用下的流量类型表现不同特性,例如,Netflix传输的数据包大小几乎是固定的,而Skype、Facebook和谷歌Hangout等应用程序传输的大小分布广泛。并且,视频流不仅限于显示元素,还包括行为与VoIP相同的音频流,以及看起来像聊天传输的用于协调和控制的小数据包流。相比之下,例如在Skype上,视频流和音频流是分开的。

  • 分析2:加密技术对流量类别的流行为的影响:

    image-20221118195738482

    image-20221118195756083

    image-20221118195807254

在不同的加密技术之间,有些类别的flowpic行为完全不同

  • 分析3:Tor的加密技术下,Tor流量的包的大小分布比较离散,从图中可以看出来,与非vpn流量中的许多包大小不同。

    image-20221118200339300

4 卷积神经网络结构设计

  • 输入:二维1500x1500图像

  • 输出:2或者流量类别(2是判定是否为NonVPN)

    image-20221118200711631

延迟分析:TBS +TFC +TML

  • TBS是自定义块大小(15、30或60秒)

  • TFC是FlowPic构建时间

  • TML是执行分类的CNN运行时间。

       实验中,我们发现TFC和TML都是0.1 s,与块大小相比可以忽略不计,故可以满足在线分类要求。

5、实验

5.1 处理样本不平衡问题

方法:过采样、欠采样

5.1.1 多类分类情况

  1. 流量类型分类(Traffic categorization):对于三种数据集(非VPN、VPN和Tor)合并其中相同类型的,而不考虑加密技术,动机是研究加密技术如何影响流量行为。

  2. 加密技术分类:即3分类,识别出是否为非VPN、VPN和Tor三种的某一种流量。

  3. 应用识别:使用创建的数据集,在VoIP类型视频类型下捕获10个应用程序的三种加密方式(非VPN、VPN、Tor)的流量。

5.1.2 一对多的分类情况

  为3种加密技术构建类与所有数据集:非VPN、VPN(针对所有类,除了browse)和TOR,以及合并数据集。对于每种加密技术,每个流类别合并数据集包含相同数量的会话。

训练测试集比例是 9:1

image-20221118203401553

还有很多的实验结果:比如未知流量识别、加密技术分类、应用分类,不一一列举。

5、总结与思考

  • 亮点:FlowPic的图生成很好,模型分类快,能进行在线分类,不依赖于双向流信息

    只考虑时间特征,可以结合空间特征,构造常规的有效载荷流量图,然后进行结合着进行分类?

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值