Tik-Tok: The Utility of Packet Timing inWebsite Fingerprinting Attacks

October1025

已于 2023-08-20 20:58:58 修改

阅读量213

点赞数

文章标签： web安全

于 2023-08-14 14:07:29 首次发布

本文链接：https://blog.csdn.net/October1025/article/details/132264457

版权

code

过去对于时序没有足够的重视。

贡献：

开发了新的突发级定时功能，并使用WeFDE信息泄露分析框架
使用新的数据表示用于深度指纹识别（DF）攻击并揭示其影响，这种新的表现形式称为Tik-Tok攻击
对洋葱服务器上深度学习分类器的性能进行了第一次调查，发现DF攻击的准确率仅为53%，而原始定时为66%
在Tor中开发了Walkie-Talkie（W-T）防御的第一个完整的实现并使用它来评估我们基于定时的攻击。

二、威胁模型

假设攻击者是本地（攻击者可以是任何可以访问客户端和守卫之间的加密流的人）被动（限制攻击者的能力，使其只能记录加密的流量而不能延迟、丢弃或修改）的网络级对手。网站分为监测集和未监测集。

三、背景及相关工作

3.1.使用手工制作的功能进行 WF 攻击

基于流量突发而不是单个数据包时间的计时功能。将前面的攻击进行比较：

k-NN：使用 k 近邻（k-NN）分类器对大量不同特征集进行攻击的方法。在 100 个网站的封闭世界环境中，他们的准确率达到了 90% 以上。这次攻击首次在 Tor 的 WF 攻击中使用了流量信息中的各种特征集（突发、数据包排序、数据包集中度、进出数据包数量等）。他们发现的一组关键特征是基于突发模式的，而唯一与时间相关的特征是总传输时间。

CUMUL：利用基于数据包大小、数据包排序和数据包方向的相对简单的特征集，提出了一种使用 SVM 分类器的攻击方法。这个简单的特征集不包括时序信息，但在封闭世界环境中证明是有效的，准确率达到 92%。

k-FP：该攻击使用随机决策森林（RDF）对特征进行排序，然后再用 k-NN 进行分类[12]。这种攻击在封闭世界环境中也达到了 90% 以上的准确率。与 k-NN 和 CUMUL 不同，他们的工作确实研究了时间特征。他们发现，每秒数据包的统计数据（如一秒内发送的最大数据包数量）对网站分类有一定帮助。其中一个特征在所有 150 个特征中排名第九，特征重要性得分高达 0.28，而大多数特征的重要性得分在 0.07 或以下，排名在 38 至 50 之间。包间延迟的统计数据排名也相对较低，在 40-70 之间。在我们的工作中，我们探索了一套基于突发流量而非固定时间间隔或单个数据包的新型定时特征。与 Hayes 等人主要使用的最大值、最小值、标准偏差和四分位统计相比，我们还使用直方图来捕捉更广泛的统计轮廓。

Wfin：在 Wfin 攻击中发布了一个包含 35,000 个特征的大集合。他们的研究评估了七个不同的 WF 场景中特征的重要性，其中两个场景模拟了未防御和已防御的 Tor 流量。Wfin 对未防御 Tor 的准确率达到 96.8%，对通过固定间隔发送数据包进行防御的 Tor 类流量的准确率达到 95.4%。当作者调查其特征的重要性排名时，几个基于定时的特征出现在前 30 名中（6 个定时特征在第 11-30 名之间）。他们的定时特征主要集中在整个跟踪或前 20 个数据包中的每秒数据包。

3.2.使用深度学习的WF攻击

由于其有效性，最近已成为图像识别和语音识别等许多领域的默认技术，在WF中有五项工作研究了DL分类器在攻击中的使用，其中只有一项使用定时信息。

SDAE：Abe 和 Goto 最早探索了流量分析中的 DL。他们为分类器提出了堆叠去噪自动编码器（SDAE），并提出了一种简单的输入数据表示（我们称之为纯方向），该数据表示由一个序列组成，每个出站数据包为 1，每个入站数据包为-1，并根据流量轨迹排序。在跟踪的最后一个数据包之后，序列被填充为固定长度的 0。在封闭世界环境中，使用 Wang 等人的数据集（每个站点 100 个实例）[35]，他们取得了 88% 的准确率。
Automated WF：Rimmer 等人[30] 研究了三种 DL 模型--SDAE、卷积神经网络（CNN）和长短期记忆（LSTM），并将它们与 CUMUL 进行了比较。攻击训练使用了一个包含 900 个网站和每个网站 2500 条跟踪记录的超大数据集，并使用了纯方向数据表示。结果表明，在封闭世界环境中，SDAE、CNN 和 CUMUL 的准确率均达到 95-97%。

DF：Sirinam 等人提出了深度指纹（DF）攻击，与 Rimmer 等人[32]研究的 CNN 架构相比，DF 利用了更深入、更复杂的 CNN 架构。他们用一个包含 95 个网站和 1000 条痕迹的数据集对其模型进行了评估，同样使用了简单的纯方向数据表示。在封闭世界环境中，DF 攻击的准确率达到 98%，高于其他先进的 WF 攻击。此外，他们还评估了针对 WTF-PAD 和 Walkie-Talkie 这两种轻量级 WF 防御的攻击性能。结果表明，DF 攻击对 WTF-PAD 的准确率超过 90%，而 WTF-PAD 是 Tor 中的主要候选防御系统。对 Walkie-Talkie 的攻击准确率为 49.7%，前两名的准确率为 98.4%。

Var-CNN：与我们在本文中介绍的主要研究同时，Bhat 等人提出了一种新颖的基于 DL 的攻击，其架构比 DF 架构更适合 WF 问题[5]。与我们的研究很相似，他们发现仅使用定时信息（原始时间戳）本身就能进行有效的 WF 攻击。为了同时使用时序和方向，他们提出了一种集合方法，并发现这种方法非常有效，性能优于 DF 及其最佳的纯方向攻击和纯时序攻击。我们没有将我们的模型与他们的模型进行直接比较，因为我们在进行研究之前无法获得他们的代码。

p-FP：与 Rimmer 等人的研究一样，Oh 等人在他们的 WF 研究[24]中也探索了几种不同的 DL 架构。虽然他们研究了许多场景，如搜索查询指纹识别和针对 TLS 代理的 WF，但他们并没有使用时序信息，而且他们的分类器在大多数场景中的表现并不优于 DF。因此，我们不与他们的工作进行比较。

3.4.WF防御

WTF-PAD：自适应填充技术的扩展。该技术最初是为了防御端到端定时攻击而提出的 [31]。WTF-PAD 可检测连续突发之间的大延迟，并添加假数据包来填补空白。这种防御方法需要 54% 的带宽开销，尽管它不会直接给真实流量增加任何延迟，而且能将 k-NN 攻击的准确率降低到 20% 以下。不过，Sirinam 等人的研究表明，包括 DF（90% 的闭环准确率）和 k-FP（69%）在内的其他几种攻击在对抗 WTFPAD 时的表现要好得多 [32]。在本文中，我们将研究如何利用时序信息来进一步提高针对 WTF-PAD 的攻击性能。

Walkie-Talkie：目的是让两个或多个网站在攻击者看来完全一样。首先，W-T 将浏览器修改为使用半双工通信，即浏览器每次只向服务器请求一个对象。与典型的全双工通信（浏览器发出多个请求，然后接收多个回复）相比，这种通信方式能产生更可靠的突发序列。鉴于每个站点通过半双工连接的预期流量轨迹（表示为突发大小序列），W-T 创建了两个站点的超序列，每个站点突发大小最大值的序列。然后，当用户访问任一站点时，W-T 将添加填充数据包，使该站点的突发序列与超级序列相匹配。理论上，这将确保两个站点具有相同的流量模式，并且无法区分，从而保证最大攻击准确率为 50%。不过，这两项研究都是在模拟中对之前从修改过的 Tor 客户端收集到的 W-T 跟踪信息进行填充。在本文中，我们首次在包含填充的 W-T 完整实现上进行实验，由于 W-T 并不试图防御数据包定时信息，因此探索定时特征在对其攻击中的有效性是很有意义的。此外，根据我们构建 W-T 的经验，我们还报告了在设计和实际部署 W-T 时面临的主要挑战。

Fixed-Rate Padding：另一类 WF 防御使用固定速率数据包传输，包括 BuFLO [11]、CS-BuFLO [7] 和 Tamaraw [8]。在这些防御措施中，数据包在整个连接期间以相同的速率发送，这就完全隐藏了定时模式和低级突发活动。对于 WF 对手来说，唯一剩下的信息就是页面的整体大小，这也被部分屏蔽了。不出所料，这些防御措施已被证明能有效抵御所有已知攻击，但也存在带宽和延迟开销从 100% 到 300% 不等的问题，这对于在 Tor 中部署来说成本太高。在本文中，我们假定时序信息对分类器的性能没有益处，因此不对这类防御进行评估。

四、表示时序信息

4.1.定时功能

前人工作：探索了使用低级定时功能 -> 数据包间延迟、逐秒数据包计数

缺点：这些特征在网站的一个实例到另一个实例之间并不一致

前人做法：使用高级聚合统计量（平均值或最大值）来弥补

本文：提出了一组基于流量突发的新颖定时功能、使用直方图获得更精细信息

4.1.1.突发级功能

侧重于单个突发内数据包的计时，其他五个特征考虑两个连续的突发

中位数据包时间（MED）：表示每个突发时间戳的中位数，如B1为0.10

方差：突发内时间变化

突发长度：突发中最后一个和第一个时间戳的差，如B1为0.20-0.0=0.2

中间值时延（IMD）：两个连续突发的中值之间的间隔，如B1和B2之间0.50-0.10=0.40

IBD-FF：IBD 代表脉冲间延迟。IBD-FF 是两个连续突发的第一个数据包之间的间隔。对于 B 1 和 B2：0.40 - 0.00 = 0.40。

IBD-LF：该功能是一个突发的最后一个数据包与后续突发的第一个数据包之间的间隔。对于 B1 和B2，我们得到 0.40 - 0.20 = 0.20。

IBD-IFF：与 IBD-FF 类似，但适用于两个连续的突发。在我们的示例中，B2 和 B4 是两个入站脉冲串，因此我们得到 0.75 - 0.40 = 0.35。

IBD-OFF：类似于 IBD-IFF，但针对的是传出突发。突发。B1 和 B3 是我们示例中的两个传出脉冲串。因此我们得到 0.65 - 0.00 = 0.65。

4.1.2.直方图构造

(1) 为每个特征生成全局分布

(2) 使用这些全局分布来填充每个实例的最终特征集

4.3.结合时序和方向信息

定向计时，将DF分类器中定向计时的使用称为“Tik-Tok攻击”

五、数据

对于无防御和防御（WTF-PAD和W-T），使用数据集

洋葱网站数据集

W-T数据集是作者创建的第一个通过实时Tor网络收集的，并且与之前不同的是敏感站点并非仅与一个非敏感的站点静态配对，这模仿了现实的场景。

六、实验评估

为了更好理解突发级时序特征的价值，采用WeFDE 对未防御数据集进行信息泄露分析。

WeFDE：信息泄露分析器、互信息分析器（生成描述共享信息量的指标，用于减少泄露分析的特征数量）