论文题目:Subverting Website Fingerprinting Defenses with Robust Traffic Representation
中文题目:利用稳健的流量表示颠覆网站指纹防御
发表会议:USENIX 2023
摘要
匿名网络(如 Tor)容易受到各种网站指纹(WF)攻击。本文提出了一种名为鲁棒指纹(Robust Fingerprinting,RF)的新型 WF 攻击,它可以在各种防御措施下实施WF攻击。具体来说,我们开发了一种稳健的流量表示方法,该方法可生成流量聚合矩阵(Traffic Aggregation Matrix,TAM),以充分捕捉从 Tor 跟踪中泄露的关键信息特征。
利用 TAM,攻击者可以训练一个基于 CNN 的分类器,该分类器可以学习不同防御所揭示的常见高级流量特征。我们利用公开的真实数据集进行了广泛的实验,将 RF 与最先进的(SOTA)WF 攻击进行了比较。封闭和开放世界的评估结果表明,RF 明显优于 SOTA 攻击。特别是,在 SOTA 防御下,RF 可以有效地对 Tor 流量进行指纹识别,与现有的最佳攻击(即 Tik-Tok)相比,平均准确率提高了 8.9%。
1. 介绍
Tor容易受到WF攻击,WF攻击利用侧信道信息来破坏Tor的匿名性。为了缓解 WF 攻击,人们开发了多种防御手段,如 WTF-PAD、Front、Walkie-Talkie、TrafficSliver、RegulaTor 和 Blanket。这些防御系统采用的策略包括推迟数据包发送、添加虚假数据包、在多路径上分割流量或将它们结合起来。
WF攻击利用流量侧信道数据和深度学习来破坏防御。这些攻击假设攻击者知道防御的细节,但即便如此,WF攻击也无法在不同防御下取得好的效果。例如DF和Var-CNN对WTF-PAD的准确率超过90%,但对Front的准确率只有不到75%,他们无法攻击流量分割防御,在TrafficSliver上准确率低于60%。此外,当网络条件(例如带宽)发生变化时,SOTA攻击,特别是那些使用包定时信息的攻击可能无效。在不同的网络带宽下,Tik-Tok和Var-CNN的准确率都有显著下降。
贡献
提出了一种鲁棒的WF攻击,鲁棒指纹(RF),它可以在各种防御的情况下达到很高的攻击精度。
RF的基本思想:鲁棒的流量表示可以改进针对不同防御的深度学习WF模型。它由两个关键部分组成:流量聚合矩阵(TAM)的信息性流量表示和基于深度学习的分类器。TAM表示数据包的方向和时间,并提取出受防御影响较小的判别特征。然后,深度学习分类器可以从TAM中自动学习有效指纹。
2. 背景
主要分为WF攻击的介绍、WF防御的介绍,请各位读者自行阅读。
3. 威胁模型和攻击目标
WF攻击威胁模型如图1所示。假设一个本地被动攻击者。被动攻击者只能对报文进行嗅探和记录,不能对报文进行修改、延迟、丢弃和解密。本地攻击者只能从Tor网络中客户端和保护节点的连接中收集报文轨迹。
WF攻击通常被认为是一个分类问题。在离线训练过程中,攻击者从网站痕迹的集合中提取特征并训练监督分类器。发动WF攻击时,攻击者捕获目标客户端连接Tor网络的流量踪迹,提取特征,并用分类器预测客户端访问的网站。
客户端可以灵活地部署WF防御(例如,WTF-PAD, Front, walkkie - talkie和Blanket)来保护他们的连接隐私。WF攻击的目标是即使在各种WF防御下也能准确地识别Tor流量。在本文中,我们假设攻击者事先知道受害者部署的具体防御措施。在此设置下,攻击者可以获取目标防御产生的流量轨迹进行对抗性训练。尽管这种设置对攻击者具有后发优势,但大多数现有的WF攻击仅在破坏特定防御方面有效。因此,确保WF攻击在各种防御下都能保持其有效性是非常重要的。
封闭和开放世界场景。它们通常用于评估WF攻击的性能。在封闭世界场景中,假设客户端只访问一小部分网站,这些网站被称为被监控的网站。攻击者因此有这些网站的样本来训练分类器进行网站识别。开放世界场景更为现实,其中客户端访问一组受监控的网站和一组更大的未受监控的网站。攻击者只能获得一小部分未被监控的网站进行训练,并推断客户端是否访问了被监控的网站,如果访问了,则访问了哪些网站。
4. 鲁棒流量表示
4.1 关键观察
流量表示是网络轨迹的抽象,WF分类器可以学习到不同的特征进行分类。但是原始轨迹表示过程中,会丢失信息,因此鲁棒的流量表示需要具有足够的信息量,同时受不同防御的影响较小。
流量表示形式大致分为两类:统计特征和每个数据包特征序列。统计特征是粗粒度的,每个数据包特征序列是细粒度的。为了了解流量表示法的有效性,采用信息泄露法来恒量攻击者从网站表示特征种了解到的信息量,如公式所示:
I(F;C)是泄露信息,C是监控网站,F是特定表示的特征,H(·)是熵。
从95个受监控网站中抽取100个未设防御的痕迹,利用WTF-PAD、Front、Walkie-Talkie生成防御。这些轨迹用于测量信息泄露情况,如图2所示。
第一行展示了KNN、KFP、CUMUL使用的统计特征结果。第二行显示了细粒度的每个数据包特征序列的结果。AWF和DF使用了方向,Tik-Tok使用了时间-方向。第三行显示了更多特征,包括Concentration、Burst、Pkt per Second,得出了重要结论:
- 不同防御保护的痕迹之间粗粒度差异很大,对WF识别贡献很小。
- 每个数据包特征序列也会受到不同防御措施的显著影响,因为包填充和包延迟的随机性。
- 未防御和WTF-PAD和Front防御种,每秒包泄露信息几乎相同。
上述分析指出了破坏防御的局限性。 需要一种表示方法的特征不被防御所覆盖。WTF-PAD和Front与未防御流量具有相同信息泄露,因此时间间隔内传输的数据包数量能够与基于虚包的防御方法对应。
4.2 流量聚合矩阵
提出一种鲁棒的流量表示方法,可以抽象出防御系统不易覆盖的关键特征。4.1节分析的,一个时间间隔内传输的数据包总数是破坏防御的信息特征。
- Packet Padding:直接改变数据包序列,对特征产生重大影响。而每个时间间隔内传输的数据包总量不会发生很大变化。
- Packet Delaying:改变数据包的时间序列。每个时间间隔内传输的数据包也可以低于时间序列的变化。
基于上述分析,提出了TAM的流量表示方法。聚合了数据包方向、数量和时间等多维信息。TAM会根据时间间隔内传输的数据包数量将整个轨迹划分为固定长度的小时间段,然后统计每个时间段内传出和传入的数据包数量,并合并为一个矩阵。
轨迹。访问某个网站会生成一条轨迹,用F=(f1, f2, ..., fl),其中l是轨迹的长度,fk=<tk, dk>代表数据包时间戳和方向的元祖。传出和传入的数据包dk分别为1和-1。最大长度L是一个超参数。
图3描述了TAM的结构。TAM是一个2xN的矩阵,表示轨迹F,N是TAM中分割的间隔数。长度用s表示,轨迹最大时间为T,则N=T/s。元素m表示时间间隔内传出或传入的数据包数量。
TAM的算法如算法1所示。对于每个F,获取其列索引j,如果j>N,则丢弃;否则查看dk计算行索引i。然后更新M中的相应元素,最后生成的M作为TAM返回。
如4.1节所述,粗粒度统计特征容易受到防御措施影响,细粒度如果过度指定流量追踪模式,则容易降低鲁棒性。TAM可以接受包填充和延迟,确保应对不同防御的鲁棒性。
4.3 TAM的鲁棒性评估
采用定量的方法来证明TAM比DF、Var-CNN、Tik-Tok更具鲁棒性。
5. 鲁棒指纹识别系统的设计
RF由两个关键模块组成,以实现破坏防御,即稳健的流量表示和高效的特征提取。
稳健的流量表示。在第4节提出了TAM,将追踪划分为固定长度的间隙,每个元素表示每个间隙传出或传入的数据包量。
高效的特征提取。CNN效果很好,设计了一种CNN分类器来自动提取特征,这些特征可用作各种防御条件下的网站指纹。CNN分类器由三部分组成,二维卷积层、一维卷积层和平均池化层。交叉熵为损失函数,Adam优化起用于快速收敛。
6. 性能评估
6.1 实验设置
数据集。使用了两个WF公共数据集,如表1所示。
WF攻击进行比较。选择了7种最先进的WF攻击:kNN、CUMUL、kFP、AWF、DF、Tik-Tok、Var-CNN。
WF防御。选择了防御模型:WTF-PAD、Front、RegulaTor、Tamaraw、Blanket、Walkie-Talkie、TrafficSliver。
6.2 RF超参数
使用Pytorch构建CNN,再用拓展候选搜索法寻找超参数。表2总结了超参数的搜索范围和最终值。寻找后四个超参数的方法如图5所示。
6.3 WF 攻击防御封闭世界评估
本节评估WF攻击对防御的鲁棒性。
假设两种情况:1)完全知情,攻击者拥有足够的先验知识;2)部分知情,攻击者只知道防御措施而不知道具体参数。
实验设置。完全知情情况下,使用未设防、WTF-PAD、Front、RegulaTor、Tamaraw、Blanket、Walkie-Talkie 和 TrafficSliver 的封闭世界轨迹进行评估。每种防御的带宽和时间开销如表3所示。并采用了10倍交叉验证。
在部分知情的情况下,重点关注WTF-PAD,使用正态分布(默认)、贝塔分布、伽马分布、帕雷托分布和魏布勒分布。我们用这五种分布的迹线来训练 WF 攻击,然后对每种分布的迹线进行测试。表 4 显示了在封闭世界场景中,在事先了解防御和相应参数的情况下,最先进的 WF 攻击的准确性。
所有攻击在没有防御的情况下识别网站的准确率都超过了 93%。其中,DF、Tik-Tok、VarCNN 和 RF 的准确率超过 98%。在部署了防御措施后,RF 的表现优于所有其他 WF 攻击,并达到了最高的准确率。特别是,在九种防御措施(包括 Blanket 和 TrafficSliver 的四种变体)下,RF 比现有最佳攻击(即 Tik-Tok)的平均准确率提高了 8.9%。
部分已知的结果 表 5 总结了 WF 攻击对已知到达时间分布的 WTF-PAD 的准确率。在此,我们只考虑表 4 中针对 WTF-PAD 的准确率超过 90% 的 WF 攻击。从结果中我们可以看出三个关键点: 1) 在表 4 中,与 WTF-PAD 的准确率相比,所有 WF 攻击在 Dnorm 上都达到了更高的准确率,这表明使用多个参数进行训练会产生更强大的模型。2) 在 Dnorm 上测试的 Var-CNN 准确率为 94.91%,但在 Dweibull 上测试的准确率下降了约 10%,这在 DF 中也可以看到。这是因为 weibull 是一种右偏分布,可以采样较短的到达时间间隔,使得 WTF-PAD 可以在突发中注入更多的假数据包,进一步扰乱特征。结果表明,参数设置的改变对 WF 攻击的准确性有负面影响。3)RF 明显优于其他 WF 攻击,在不同参数设置下,其对 WTF-PAD 的准确率都能保持在 96% 以上。这表明,通过使用 TAM 学习判别特征,RF 可以保持相对稳定的准确率,即使在到达时间间隔分布发生变化时也是如此。
总结。封闭词场景中两个案例的结果表明,RF可以在不同的防御和参数设置下实现较高的准确性,并明显优于现有的 WF 攻击技术。
6.4 网络状况变化的封闭世界评估
RF 中的流量表示法考虑了数据包时序,因此当网络条件发生变化时,其可靠性可能会降低。在本节中,我们将研究网络带宽变化如何影响封闭世界场景中的 WF 攻击性能。
实验设置。我们使用第 6.1 节中的第一个数据集来模拟训练集和测试集的不同网络带宽。由于网络带宽会显著影响同一网站的加载时间,我们使用加载时间来反映网络带宽。例如,我们在每个网站中选择 10%速度最快的负载轨迹进行测试,其余 90%用于训练,以模拟受害者的高网络带宽。同样,我们在每个网站中选择 10%最慢的负载轨迹进行测试,并将其余 90%用于训练,以模拟低网络带宽。
结果。表 6 总结了在加载时间最快和最慢的数据集上测试的 WF 攻击的准确性。我们从结果中观察到三个关键点。1) 尽管 DF 只使用方向,但所有 WF 攻击的准确率都低于表 4,这表明不同的网络条件也会影响方向序列,而不仅仅是时间。然而,我们发现 DF 在所有情况下都优于 Tik-Tok,尤其是在无防御跟踪中对最慢加载时间进行测试时准确率最高,这表明对时间的影响比对方向的影响更大。2) 射频在所有情况下都具有最高的准确度,除了在未设防迹线的最慢加载时间上进行测试。原因是慢速迹线的时间间隔较长,导致 TAM 的特征空间稀疏,影响了分类器的相邻特征提取。不过,与其他攻击相比,RF 的鲁棒性更强,在防御数据集上的准确率最高,这表明 RF 在面对网络带宽变化时对防御具有鲁棒性。3) 比较最快和最慢加载时间测试的准确率,较快的加载时间对准确率的影响小于较慢的加载时间。这是因为较慢的加载时间意味着较低的网络带宽,这会导致数据包重传,并在流量中注入更多噪音。
总结。结果表明,在带宽变化的情况下,RF仍保持稳健,在所有攻击中准确率最高。在实际应用中,网络条件的变化也会涉及到防护节点和客户端。
6.5 开放世界评估
7. 防御策略
在本节,作者提出了一种对抗RF的策略。
7.1 策略设计
受现有防御系统设计方法的启发,我们采用干扰流量的策略来设计 WF 防御系统。直观地说,我们可以通过添加虚假数据包或延迟真实数据包来改变某个网站的原始痕迹模式,从而误导 WF 分类器。但必须注意以下几点:
- 有效。
- 轻量,不能有太高的带宽和时间开销。
- 实用。必须适用于实时流量。
基本思想是从网站的历史轨迹种学习关键特征的数据包序列,然后通过数据包填充和延迟来模仿另一个网站的多数据包序列,从而对原始网站进行变形。表7是参数。
采用了类激活映射法(CAM),提取信息过程如算法2所示。
给定信息区域后,流量变形策略如算法3所示。
7.2 性能评估
8. 讨论
强大的流量表示。我们发现,先前的 WF 攻击对防御效果较差。原因在于现有的表示法很容易被混淆或规范化。在本文中,我们提出了一种更稳健的流量表示法 TAM。
防御措施的真实世界实施。与之前的 WF 攻击[4, 37, 41]一样,除 Walkie-Talkie 外,本研究中评估的所有防御措施都是模拟的。在真实世界中实施时,它们的有效性和开销可能会有所不同,尤其是对延迟真实数据包的防御。
建议的对策。在流量变形策略中,我们随机选择目标类别和信息区域,以减少开销。不过,如果在选择过程中纳入先验知识(如流量的估计发送率),就有可能进一步降低开销。此外,我们没有考虑针对建议对策的可能自适应攻击。
9. 结论
在本文中,我们研究了 WF 攻击在不同设置下存在防御时的鲁棒性。我们提出了一种基于鲁棒性流量表示的鲁棒性 WF 攻击,命名为 "鲁棒性指纹"(Robust Fingerprinting,RF)。更具体地说,我们构建了一种鲁棒流量表示(即 TAM),以捕捉流量跟踪中不易被各种防御措施覆盖的特征。我们采用 CNN 构建了一个有效的分类器,用于自动学习 TAM 中的特征。我们进行了大量实验,对 RF 和最先进的 WF 攻击进行了全面比较。我们的封闭和开放世界结果表明,RF 在鲁棒性方面优于其他 WF 攻击。最后,我们讨论了针对 RF 的可能防御措施,并提供了可行的对策。在未来的工作中,我们将研究更强大的流量表示法,并针对实际部署的防御措施评估 WF 攻击。