Var-CNN: A Data-Efficient WebsiteFingerprinting Attack Based on Deep Learning

2018  code

利用深度学习以及特定于数据包序列分类的新见解 -> 大大减少执行成功的网站指纹攻击所需的训练数据量,这缩短了数据收集所需的时间,降低了出现数据过时问题的可能性

深度学习的显著缺点:需要大量训练数据

Var-CNN是基于深度学习的半自动特征提取WF攻击,也是第一个专门针对网络数据包序列分类的深度学习WF攻击。

威胁模型

将数据包是传入还是传出称为方向数据,将两个连续数据包之间的时间延迟称为时间数据。

相关工作

自动特征提取攻击

在训练数据较少情况下DF与现有技术比几乎没有改进。

Var-CNN与DF之间的关键区别:

  • V-C 采用了一些针对数据包序列分类的新见解,包括扩张因果卷积、累积统计信息和定时数据。
  • 我们的研究表明,无论使用的数据量多少,Var-CNN 在每个开放和封闭世界的测试环境中都优于 DF。
  • V-C 模型在使用少量训练数据的情况下有明显改善。这一点非常重要,原因如下:(1)深度学习模型通常无法在较小的训练集中很好地工作(2)训练集越小,训练时间越短(3)训练集越小,对手所需的资源和收集数据库的时间就越少,从而直接减少了工作量

Var-CNN

由两种类型的集成组成,一种是训练中扩展因果ResNet18和累积特征的组合,另一种是方向和时间模型的训练后集成。

Var-CNN与DF评估

在不设防的场景中,Var-CNN(置信度阈值为 0.5)获得了与 DF(置信度阈值为 0.7)相似的 Multi-TPR,分别为 89.2% 和 88.4%。 然而,它的 FPR 降低了近 8 倍,从 8.6% 降至 1.1%。 因此,与 Var-CNN 相比,DF 会正确地将多个不受监控的网站分类为受监控,从而错误地识别用户。

在针对 Tamaraw 和 WTF-PAD 的 WF 防御设置中,Var-CNN 仍然保留了相对 DF 和其他现有技术的显着改进。 例如,当 Multi-TPR 与 DF 相当时(分别为 88.8% 和 86.2%),Var-CNN 的 FPR 降低了近 8 倍,从 5.4% 降低到 0.7%。 针对 k-FP 和 CUMUL 等其他攻击,Var-CNN 在 Multi-TPR 和 FPR 方面都有更大的改进。
最后,我们注意到,在尝试了 Tamaraw 的多种配置后,我们无法获得针对所有攻击产生非零 MultiTPR 和 FPR 的配置。 虽然 k-FP 确实在对抗 Tamaraw 时获得了 4% 的 Multi-TPR,但最终 54.3% 的 FPR 太高,无法做出可靠的预测。 事实上,我们的 Tamaraw 配置似乎非常强大,以至于导致大多数攻击将每个实例归类为不受监控,从而导致 0% TPR 和 0% FPR。 相比之下,WTF-PAD(至少在我们测试的配置下)为了低开销而牺牲了太多的安全性,它无法防御像 Var-CNN 和 DF 这样的攻击,这些攻击实现了相对较高的 TPR 和相对较低的 FPR。

未来工作

更强大的基线模型。由于深度学习是一个快速发展的领域,新模型架构突破的应用可能会带来更好的结果。 例如,在这里,我们使用 ResNet 架构作为基准 CNN,因为它是目前使用最广泛的最先进的图像分类 CNN。 还有其他图像分类模型,例如 ResNets 或 DenseNets [21] 的较大变体,可以提供更好的结果。 然而,在我们对这些架构的初步测试中,我们没有看到足够显着的精度改进来证明其增加的计算成本是合理的。

此外,最近关于合成梯度的工作 [23] 可能会导致 RNN 能够训练更长的输入(例如,本工作中使用的数据包序列)。 由于 RNN 是专门为时间序列设计的,因此该模型可能比扩张因果卷积更好地理解长期数据包交互。

无论选择哪种架构,我们都想指出,本文中使用的几乎所有数据包序列分类见解都是独立于架构的,因此可以应用于大多数未来的深度学习攻击。 例如,扩张因果卷积适用于任何 CNN 架构,而具有累积特征和时序数据的集成适用于几乎所有神经网络模型。

数据增强。计算机视觉研究中的一种常见技术是通过使用数据增强(裁剪、旋转、翻转、移动和重新缩放图像)来人为地扩展训练数据大小。该技术适用于计算机视觉,因为人工数据通常与现实世界的数据足够相似,因此对模型很有用。类似的数据包序列技术,例如以一种或另一种方式移动随机数量的数据包,可用于实现更好的低数据性能。

用户来源的数据集。如第 2.2 节所述,假设有两种主要类型:可复制性和适用性。这两个假设都可以在现实世界的用户试验研究中得到检验。在这里,对手会起草一些现实世界的 Tor 用户并监视他们的数据包序列、访问的站点(包括后台流量)和元数据设置(Tor 版本、电路延迟等)。这将使他们能够知道 WF 假设在现实世界中的强度有多大。

对抗性机器学习。常规 WF 防御通过阻止来自数据包间定时、数据包序列长度和突发模式等来源的信息泄漏来降低准确性。然而,在机器学习模型的对抗性攻击的背景下可能存在更精确的 WF 防御 。假设 WF 防御者对 WF 攻击者模型有一定的了解,她可能能够设计专门的扰动来降低模型的分类能力,同时比更传统的 WF 防御引入更少的开销。

对抗性机器学习中的大多数工作都集中在图像分类上,其中 p 范数限制了图像允许的像素级扰动总量。然而,对于数据包序列,更改单个输入要困难得多,因为它们必须遵守时间顺序。例如,如果将来需要该信息,则不能将传出数据包更改为传入数据包。同样的论点也适用于更改数据包的时间戳。因此,为所有允许的扰动集创建专门的约束很可能是未来工作的重点。

最后,与所有攻击防御范式一样,虽然对抗性机器学习 WF 防御可能能够最初击败 WF 攻击,但新的 WF 攻击可以经过训练,变得对这些防御具有鲁棒性。例如,Mądry 等人最近的工作。 已经表明,通过在凸优化的背景下观察对抗性机器学习,我们可以训练出一种对对抗性输入具有鲁棒性的模型[33]。 这将使 WF 攻击能够抵抗对抗性 WF 防御扰动。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值