Deep Fingerprinting: Undermining Website Fingerprintin Defenses with Deep Learning

2018 CCS code

WF从机器学习的角度来看,是一个分类问题,对手在一组网站上训练了一个分类器,提取每个网站独有的网络流量特征。为了部署攻击,攻击者使用分类器将受害者的痕迹与这些站点之一进行匹配。 WF 的有效性在很大程度上取决于分类器算法和所使用的特征集。

深度学习(DL)在许多领域表现都优于传统的机器学习技术,例如语音识别、是绝对下识别和对象检测,而且不需要手动选择和微调特征。

贡献:

  • 我们提出了深度指纹识别(DF),这是一种基于卷积神经网络(CNN)的新型 WF 攻击,采用最先进的 DL 方法进行设计。该攻击使用简单的输入格式,无需手工制作分类特征。我们介绍了 DF 如何利用计算机视觉研究的进展来实现有效而稳健的分类性能。
  • 为了详细研究该攻击,我们在一个封闭世界环境中使用我们收集的新数据集进行了实验,该数据集包含 95 个站点和每个站点 1,000 个痕迹。我们发现,我们的 DF WF 攻击对 Tor 的准确率比最先进的攻击高出 98.3%。我们还展示了训练历元数和训练数据集大小对分类准确性的影响。
  • 然后,我们展示了在封闭世界环境中针对使用 WTF-PAD 和 W-T 进行防御的 Tor 流量的 DF 攻击的有效性。针对 WTF-PAD 的攻击准确率达到 90%,明显优于其他所有攻击。针对 W-T 的攻击准确率为 49.7%,优于所有其他攻击,几乎达到理论最高准确率 [41]。
  • 为了在更现实的环境中进行研究,我们使用了一个拥有 20,000 个不受监控站点的开放世界。在非防御流量上,攻击的精确度为 0.99,召回率为 0.94。在使用 WTF-PAD 进行防御的流量上,攻击的精确度为 0.95,召回率为 0.70。我们还研究了攻击 W-T 弱实现的可能性。
  • 根据我们的实验结果,我们提出了一些在攻击和防御方面需要探索的新方向。

2 威胁模型

独一无二的特征,如数据包大小频率、两个方向的总传输时间和体积、编辑距离得分、每个方向的流量突发数量等等。

3 背景和相关工作

3.1 WF攻击

做法结果备注
将WF与Tor进行比较只达到3%准确率主要问题是依赖于数据包长度频率,而Tor以固定大小的数据包发送数据,因此对Tor没有用
Panchenko先改进,后续逐步提高,其中使用编辑距离的两个分类器
准确率提高到55%、90%成本较高,现实世界部署不切实际

最近的更先进的特征集和更复杂的分类器:

k-NN:包括数据包排序、传入和传出单元数以及突发数等特征。k-NN 表现出非常出色的性能:在有 100 个网站的封闭世界环境中,它达到了 91% 的准确率;在有 5,000 个网站的开放世界环境中,它达到了 86% 的真阳性率 (TPR) 和 0.6% 的假阳性率 (FPR)。
CUMUL:Panchenko 等人[27]提出了一种基于支持向量机(SVM)分类器的攻击,并设计了一种基于数据包长度累加和的新型特征集,其构造如下:特征向量中的第一个坐标是流量跟踪中第一个数据包的长度,第 i 个坐标是第 (i - 1) 个坐标的值加上第 i 个数据包的长度之和,其中传入数据包的长度为负值。在封闭世界环境中,该攻击的准确率达到 91%。在开放世界中,他们研究了两种不同的方案:多类方案,即把每个受监控的网站视为一个不同的类,以及两类方案,即把整个受监控的网页视为一个单一的类。开放世界的结果是,多类别的 TPR 为 96%,FPR 为 9.61%;双类别的 TPR 为 96%,FPR 为 1.9%。

k-FP:Hayes 和 Danezis [14] 提出了 k-指纹攻击(k-FP)。k-FP 使用随机森林分类器提取网页指纹:他们使用传统特征训练随机森林,但实际指纹由随机森林中的树叶表示。作者认为,对于 WF 而言,这种表示方法比基于原始特征的表示方法更有效。为了解决开放世界问题,他们将这些新特征向量输入到 k-NN 分类器中。他们还分析了这些特征的重要性,并对其进行了排名。结果表明,前 20 个最重要的特征涉及计算序列中的数据包数量,与数据包排序或数据包到达间隔时间特征等复杂特征相比,这些特征泄露了更多有关网页身份的信息。k-FP 在封闭世界环境中的准确率达到 91%,在开放世界环境中的 TPR 和 FPR 分别为 88% 和 0.5%。

3.2 WF防御

原理举例做法备注
添加虚拟数据包和/或延迟数据包,用于掩护流量使WF特征不那么明显BuFLO修改流量,使其看起来是恒定速率,从而去除数据包特定的特征。然而诸如总量、大小和时间等粗糙特征很难在不产生高带宽开销的情况下隐藏起来。
Tamaraw 和 CS-BuFLO通过将大小相似的站点分组,并将组内所有站点填充为该组中最大的站点来解决这一问题。这些防御措施仍然比未受保护的 Tor 多耗费 130% 以上的带宽,而且页面加载速度平均要慢两到四倍

最近的两种轻量级对抗措施被提出用于Tor中:

WTF-PAD:由于自适应填充最初是作为端到端定时分析的防御手段而设计的,因此 Juarez 等人提出了 WTF-PAD,一种在 Tor 中部署自适应填充进行 WF 防御的系统设计[20]。WTF-PAD 已被证明能有效抵御所有最先进的攻击,与 BuFLO 式防御相比,其带宽开销相对适中(例如 54%)。此外,由于 WTF-PAD 不会延迟数据包,因此不会产生任何延迟开销。

Walkie-Talkie:是指 Tor 浏览器以半双工模式与网络服务器进行通信,在这种模式下,客户端只有在服务器满足了之前的所有请求后才会发送请求(如图像文件)。因此,服务器和客户端会交替发送不重叠的突发信息。此外,防御系统还会添加虚假数据包和延迟来制造碰撞,在碰撞中,两个或更多站点具有与对手分类器相同的特征。其关键在于,半双工通信产生的轨迹可以进行转换,以比全双工轨迹更少的填充来制造碰撞。W-T 以 31% 的带宽开销和 34% 的延迟开销提供了强大的安全保证。

本文将评估针对这两种的防御进行攻击。

3.3 利用深度学习的WF攻击

在WF领域,有四项工作已经开始研究DL的使用。

  • 堆叠去噪自编码器SDAE,仅在一个小数据集上就取得了成功。
  • 自动特征提取,是基于CNN的攻击,但无法胜过最先进的攻击CUMUL。
  • Var-CNN、p-FP对CNN的变体和带有自编码器的无监督dnn的探索的初步报告,但都没有对WTF-PAD有效。

-> 基于CNN的深度指纹DF

3.4 深度学习

主要关注两种深度学习技术

3.4.1 堆叠去噪自编码器SDAE

提高识别视觉数据的分类性能。这是一个简单的三层神经网络,包括输入、隐藏、输出层。在AE中,输入数据首先被编码,通过神经元层传递到更浓郁的表示(隐藏层),然后AE执行解码。主要优点,从训练数据中提取高级特征,从而降低维数。

3.4.2 卷积神经网络CNN

提出将CNN应用于加密视频流,加密的视频流可以通过其突发模式进行独特的表征,准确率很高。使用分类交叉熵,适用于多分类问题。

4 数据收集

使用tor-browser-crawler驱动Tor浏览器访问网站

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值