论文简介
原文题目:Seeing Traffic Paths: Encrypted Traffic Classification With Path Signature Features
中文题目:查看流量路径:具有路径签名特征的加密流分类
发表期刊:IEEE Transactions on Information Forensics and Security
发表年份:2022
作者:Shi-Jie Xu
latex引用:
@article{xu2022seeing,
title={Seeing traffic paths: encrypted traffic classification with path signature features},
author={Xu, Shi-Jie and Geng, Guang-Gang and Jin, Xiao-Bo and Liu, Dong-Jie and Weng, Jian},
journal={IEEE Transactions on Information Forensics and Security},
volume={17},
pages={2166--2181},
year={2022},
publisher={IEEE}
}
摘要
虽然已经开发了许多网络流量保护方法来保护用户隐私,但加密流量仍然可以通过复杂的分析泄露敏感的用户信息。
本文提出了一种新的带有路径签名的加密流量分类方法——ETC-PS。我们首先用会话数据包长度序列构建流量路径,以表示客户端和服务器之间的交互。然后进行路径变换,显示其结构,获得不同的信息。最后通过计算多尺度路径特征作为一种特征来训练传统的机器学习分类器,达到了高鲁棒精度和低训练开销的目的。利用HTTPS/1、HTTPS/2、QUIC、VPN、非VPN、Tor和非Tor 6个公开的数据集,分别进行了封闭世界和开放世界的评估,验证了ETC-PS的有效性。
实验结果表明,ETC-PS在准确率、f1分数、时间复杂度和稳定性方面都优于现有的方法
存在的问题
基于统计的方法通常使用的特征会导致模型鲁棒性差
论文贡献
- 提出流量路径构造来表示客户端和服务器之间的交互,它只使用会话数据包长度信息。
- 流量路径转换,用额外的坐标装饰原始路径,建议允许签名暴露额外的特征。
- 提出了一种基于路径签名特征、流量路径变换和射频分类器的ETC新方法,该方法取得了与现有方法相当的结果。
论文解决上述问题的方法:
设计了一种提取高鲁棒性特征的方法
论文的任务:
加密流分类
1. 路径签名(Path Signature)
主要是数学理论,论文可结合这些文章理解:
2. ETC-PS
-
流量采集阶段:
生成流量数据包序列
-
特征提取阶段:
- 逐个计算数据包序列中每个数据包的长度,生成数据包长度序列。
- 通过设置负长度表示上行数据包,设置正长度表示下行数据包来构造流量路径。
- 进行流量路径变换和路径签名特征提取,生成path signature features
流量数据包序列生成 + 流量路径变换:
- 客户端-服务器交互过程:
- 握手阶段:上行和下行报文在此阶段交替传输。对于同一种传输协议,这一阶段生成的数据包序列非常相似,包括数据包的长度、数量和方向。
- 上行链路主导阶段:上行报文主要在此阶段传输。通常将带有控制指令编码的上行报文发送给服务器,邀请服务器协同提高数据传输效率。
- 下行链路主导阶段:下行数据包主要在此阶段传输。下行链路数据包用于传输客户端需要的内容
- 网络流量路径构建
生成原始序列 X t o = { X t 1 } , X t 1 = { l 1 , l 2 , . . . l n } , n 为数据包个数, l 为有向数据包长度 X^o_t = \{X_t^1\}, X_t^1 = \{l_1,l_2,...l_n\},n为数据包个数,l为有向数据包长度 Xto={Xt1},Xt1={l1,l2,...ln},n为数据包个数,l为有向数据包长度 - 流量路径构建
- 路径分解:为了清晰地暴露客户端和服务器之间的交互,可以对原始序列进行路径分解变换,将其分解为两个子路径,分别表示上行序列和下行序列。
输出 X t o , d = { U , D } X_t^{o,d} = \{U,D\} Xto,d={U,D}
- 累加和:累加和特征对ETC非常有效[5]。对于相同的网站或服务,要传输的有效载荷通常是固定的,这导致了非常相似的累积和特征。
输出 X t o , d , c = { U , D , U ′ , D ′ } X_t^{o,d,c} = \{U,D,U',D'\} Xto,d,c={U,D,U′,D′}
- 基点:在路径的开头添加一个零(注意,这个零也可以放在末尾)。这种转换使签名对路径的翻译敏感,即消除了翻译不变性,这对ETC是有利的,因为不同的数据包大小代表不同的网站布局或服务内容。简单理解为用于区分四个序列。
输出: X t o , d , c , b = { ϕ ( U ) , ϕ ( D ) , ϕ ( U ′ ) , ϕ ( D ′ ) } X_t^{o,d,c,b} = \{ \phi (U),\phi(D),\phi(U'),\phi(D')\} Xto,d,c,b={ϕ(U),ϕ(D),ϕ(U′),ϕ(D′)}
- 时间合并:可以通过添加单调坐标(如时间)来丰富原始的线性路径,从而保证签名的唯一性。它通常对应于添加时间参数作为路径的坐标。
输出: X t o , d , c , b , t = { ϕ ( U ) , ϕ ( D ) , ϕ ( U ′ ) , ϕ ( D ′ ) , t } , t ∈ [ 0 , n ] X_t^{o,d,c,b,t} = \{ \phi (U),\phi(D),\phi(U'),\phi(D'),t\}, t \in [0,n] Xto,d,c,b,t={ϕ(U),ϕ(D),ϕ(U′),ϕ(D′),t},t∈[0,n]
举例:
路径签名特征提取:
参考这篇文献:A generalised signature method for multivariate time series feature extraction -
流量分类阶段:
传统机器学习模型来进行流量分类
3. 实验
-
数据集:
-
效果
总结
疑问
- 没太看懂哪里用到了路径特征,应该需要再去看下路径特征在机器学习领域的应用相关论文。
- 路径签名特征提取部分没看明白,需要去读一下这篇文章:A generalised signature method for multivariate time series feature extraction
数据集
- HTTPS
- Bottlenet-HTTPS2016
- CTU-HTTPS2017
- Bottlenet-HTTPS2:Transparent and service-agnostic monitoring of encryptED WEB traffic
- QUIC2019:How to achieve high classification accuracy with just a few labels: A semi-supervised approach using sampled packets
可读的引用文献
- Fine-grained webpage fingerprinting using only packet length information of encrypted traffic
- A generalised signature method for multivariate time series feature extraction