论文阅读：Domain Name Encryption Is Not Enough: Privacy Leakage via IP-based Website Fingerprinting

最新推荐文章于 2024-05-16 21:43:06 发布

就叫昵称吧

最新推荐文章于 2024-05-16 21:43:06 发布

阅读量1k

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_39378221/article/details/114445694

版权

论文阅读专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文探讨了即使使用域名加密技术（如DoT、DoH、ESNI），网络层的观察者仍能通过IP地址进行网站指纹识别，从而威胁用户隐私。研究提出了一种基于IP的网站指纹技术，实验表明该技术能以高准确率识别用户访问的网站。对策包括网站所有者减少第三方资源引用，用户使用广告拦截器，托管服务商增加IP映射的动态性。

摘要由CSDN通过智能技术生成

Domain Name Encryption Is Not Enough: Privacy Leakage via IP-based Website Fingerprinting

1 背景&目的

域名加密技术，例如DoT、DoH、ESNI等技术，可以提高安全和隐私，但是在保护用户隐私上，仍然存在问题，那就是用户访问的网站可以在网络层的观察者那里通过ip-域名映射表得到。不过CDN、DNS负载均衡、同一台服务器上托管多个不同网站这些技术都使得ip-域名映射表变得不稳定。

本文说明，这种不稳定性并不能成为可靠浏览跟踪的阻碍（假设部署的是通用DoT/DoH、ESNI）。本文提出了一个基于IP的网站指纹技术，这种技术可以帮助网络层的观察者高准确率地识别出用户访问的网站。并讨论总结了一些网站所有者和托管提供商可用的策略，用来对抗这种基于IP的网站指纹技术，最大限度地提高域名加密技术提供的隐私利益。

2 域名加密（Domain Name Encryption）

在当下的web浏览环境下，有两种渠道可以获取到域名信息：

明文DNS请求和响应
TLS握手过程中的SNI

明文DNS不仅仅暴露用户隐私，还允许网络层的实体干扰用户连接。DoT、DoH、ESNI就是保护域名信息的几种解决方案。

DoH和DoT将DNS请求和响应加密，几家服务提供商已经开始提供公开DoT/DoH解析器，包括Google和Cloudflare。在客户端，几家流行的浏览器也开始支持DoH/DoT。不过这些供应商将所有DNS解析集中到一个受信任的解析器的设计选择还引起了另外的一些隐私问题。

TLS握手中的SNI字段表示客户端想要访问的网站的域名，为了获得其域名的整数。TLS1.2之前，SNI字段都是明文传输的，也存在安全和隐私风险。TLS1.3提供了加密SNI字段的选项。但是为了是ESNI工作，从服务器公钥派生的对称加密密钥必须通过ESNIKeys DNS查找提前获得。所以，如果ESNI不适用DoT/DoH，那它就无法带来任何隐私收益。

3 网站指纹（Website Fingerprinting）

网站指纹是一种利用加密流量分析技术，根据浏览网站时观察到的流量模式，为一组网站构建指纹的攻击方式。指纹将被用来确定受监控的用户是否访问过任何受监控的网站。

前人关于网站指纹的工作主要关注于识别网站，这些网站是通过匿名化或混淆渠道浏览的，它们的真实目的IP被隐藏起来，例如使用Tor、VPN或代理服务器。

针对标准加密网络流量的网站指纹攻击尚未得到全面调查，大概是因为在明文时代，只通过DNS和SNI 中的域名信息就能大致推断出访问的应用或web服务。

4 威胁模型

考虑一个真实场景，一个攻击者（例如一个ISP）被动地监视用户流量，并试图确定一个特定的网站是否被给定的用户访问，仅仅基于从IP地址获得的信息。

假设攻击者执行以下步骤来创建网站指纹：

攻击者访问一组网站，并记录所有与其联系获得资源的域名。每个网站的基于域名的指纹可以通过这组相联系的域名构建
这些域名被定期解析到它们的主机IP地址，这些地址用于构建基于IP的指纹。根据域名和它主机IP(es)地址之间的关系，连接到唯一的IP地址可以很容易地显示哪个网站正在被访问。
攻击者将被监控用户的网络踪迹中发现的IP地址序列与前一步构建的基于IP的指纹相匹配，以推断哪个网站被访问。

攻击的有效性取决于指纹的唯一性和稳定性

5 指纹构造

5.1 基于IP的指纹

假设理想的环境就是域名信息无法从网络流量中提取出来，攻击者唯一可以看到的元数据就是远程连接服务器的IP地址。在这种情况下，攻击者只能通过观察到的IP地址来识别目标网站。

当浏览网站时，浏览器首先会与web服务器连接获取到HTML文档，然后解析HTML文档获取其中引用的其他web资源。基于这个逻辑，攻击者首先构造基于域名的指纹。

对于一个给定的网站，它的基于域名的指纹由两部分组成：

主域名（primary domain），用 $d_p$ 来表示。它是浏览器地址栏里面URL中的域名，对应的是首次连接获取初始HTML文档的服务器
从域名（secondary domain），用 $d_s$ 来标示。它可能与主域名不一样，它是HTML文档里面引用的托管其他web资源的域名。

指纹可以表示为：
$d_p + \{d_{s_1}, d_{s_2}, \cdots, d_{s_n}\}$

攻击者可以从上述基于域名的指纹获取他们对应的基于IP的指纹，通过重复解析域名到IP地址。假设一个域名可能被解析为多个IP地址，那么基于域名的指纹中的每个域名将被转换为一组至少包含一个IP地址的IP地址。

基于IP地址的指纹也由两部分组成：

主域名的IP地址
解析从域名得到的一组IP地址

指纹可以表示为：

$\{d_pip_1, d_pip_2, \cdots, d_pip_n\} + \{ \{d_{s_1}ip_1, d_{s_1}ip_2, \cdots, d_{s_1}ip_n\},\\ \{d_{s_2}ip_1, d_{s_2}ip_2, \cdots, d_{s_2}ip_n\}, \cdots, \{d_{s_n}ip_1, d_{s_n}ip_2, \cdots, d_{s_n}ip_n\} \}$

为了简化指纹的构造和匹配，考虑所有次域名的IP地址的并集来减少上述指纹。简化表示为：

$\{d_pip_1, d_pip_2, \cdots, d_pip_n\} + \{ d_{s_1}ip_1, d_{s_1}ip_2, \cdots, d_{s_1}ip_n,\\ d_{s_2}ip_1, d_{s_2}ip_2, \cdots, d_{s_2}ip_n, \cdots, d_{s_n}ip_1, d_{s_n}ip_2, \cdots, d_{s_n}ip_n \}$

5.2 通过Connection Bucketing加强基于IP的指纹

当页面被访问时，为了获取web资源还会发起多个请求，一旦获取了资源，这些资源可能也会触发额外的对子资源的请求（例如js代码）。这些请求的绝对顺序可能会改变，由于一些不确定因素例如网络供应商的性能和底层操作系统。所以在构建基于域名的指纹时不考虑这种顺序。不过当将所有这些请求当做一个整体来看时，仍然存在一种高级别的排序关系，当考虑关键渲染路径时，可以可靠地捕获这种关系。具体来说就是，有一些渲染阻塞和关键对象总是要在其他对象之前加载。

从获取初始HTML文档到屏幕上呈现出网站中间的时间链称为关键渲染路径（critical rendering path）。

首先浏览器从主域名那获取到初始HTML文档（例如index.html）
然后HTML文档被解析为DOM树
然后浏览器从远程目的地获取几个web资源（HTML、JS、CSS、图像、第三方资源）来呈现网页。

考虑关键渲染路径，可以使用3个重要的事件来将连接聚集到3个“bucket”中：

domLoading：在浏览器接到初始HTML文档并开始解析它以构造DOM树时候触发。触发事件后，立即启动多个用于获取DOM树引用的关键资源的并行连接。
domContentLoaded：DOM和CSSOM准备好时触发，通知浏览器创建渲染树。该事件通常在不等待样式表、图像、subframe的加载时触发。触发事件后，会观察到一组用于获取非阻塞样式表、JS文件、图像、subframe等的连接。
domComplete：当网站和子资源被加载完时触发。触发事件后，非必要对象仍然可以在后台下载，而关键渲染路径不受影响。例如外部js文件被认为是渲染阻塞的，建议将其移动到网页的末尾，因此在触发此事件后，通常可以观察到一小群连接。

基于这些关键渲染路径，本文增强了指纹的结构，以构成主域名和3个事件对应的3组域名，加强的基于域名的指纹可以表示为：

$d_p + \{d_{s_1}, d_{s_2}, \cdots\}+ \{d_{s_2}, d_{s_3}, \cdots\}+ \{ \cdots, d_{s_{n-1}}, d_{s_n}\}$
如果在不同时间从一个域名获取多个对象，那么该域名可以出现在多个桶中。因此增强的基于IP的指纹遵循同样的结构，由4组IP地址组成，即主域名的IP地址集合+3个桶对应的3组IP地址集合。

6 实验

6.1 测试域名的选择

选取Tranco的top网站排名列表，该列表与Chrome用户体验报告中的web流量有很好的重叠。

通常情况下大家都会选择Alexa、Majestic、Umbrella、Quantcast这四个top网站列表之一来做研究，但是有的人研究说这些列表可能会对实验结果带来负面影响。Tranco列表已经汇总了这4个列表，从而形成超过700万个域名的列表。

本文选取该列表的top 100K进行研究。同时对敏感网站的访问也是一个重要问题，如果在很专制的地区，浏览特定内容会违反当地法规。因此本文又手动选择Alexa上的敏感类别网站。

最后，数据集包含220743个域名，包括来自Tranco的100K以及Alexa敏感类别中的126597个域名

6.2 测量时间和地点

前人的许多工作忽略了时间，从而忽略了指纹的时间特征。domain-IP映射的变化是个主要问题，以前构造的指纹在特定时间段后可能无效。

本文在60天内对220K个网站进行重复爬取，对每个网站都提取所有域名来构造指纹。在网络层，捕获IP地址序列，用来评估指纹准确性。

由于DNS负载均衡，许多域名可能会映射到不同的IP地址上，因此一旦提取出每个网站的一组域名，就一直对其进行解析，直到下次抓取。

测量地点位于美国东海岸的一组机器

60天内总共收集了24批数据。

7 实验结果

7.1 指纹准确率

7.1.1 指纹信息熵

基于IP的指纹来自于每个网站中提取的域名，因此这些域名的唯一性是影响IP指纹的重要因素。这很直观，如果一个域名每个网站都用，那么这个域名就做不了指纹，反之如果一个域名越独特，就越容易区分，信息熵就越大。

令 $P (d)$ 是在目标网站中访问一个网站时联系某一个特定域名的概率，那么信息熵可以计算如下：
$Information entropy = -log_2P(d)$

对于IP来说有两种可能：

IP地址只与一个域名关联，则容易根据域名的信息熵推导出来
IP地址可以托管多个域名，则IP地址的信息熵是对其托管的所有域名信息熵的平均值来计算

下图展示了从每个域名/IP得到的信息熵的累积分布函数。几乎90%的域名对于网站来说是独有的，从而产生很高的信息熵。
在这里插入图片描述

7.1.2 主域名到IP的匹配

很多情况下网站的域名和IP地址都存在一对一的关系，本文调查发现52%的网站只需要通过他们的IP地址就可以推断出主域名，而剩余48%的网站服务器上都至少还托管了其他网站。也就是说52%的网站都可以在与主域名的第一次连接时通过IP进行识别。

下表展示了使用不同方法识别的成功率，第3列是仅仅通过主域名进行判断。

在这里插入图片描述

7.1.3 基本指纹（Basic Fingerprinting）

基本指纹如上所述包含主域名IP和从域名 IP两部分，给定一个IP序列 $[ip_0, ip_1, ip_2, \cdots, ip_n]$ ，首先从所有基于IP的指纹的主部分扫描 $ip_0$ ，如果匹配到，则这条指纹加入候选中。然后对比 $\{ip_1, ip_2, \cdots, ip_n\}$ 和候选集中的从域名部分。对于每个匹配的IP地址，将该IP地址提供的熵加到该特定候选指纹获得的熵总量中。最后选择最高熵值的指纹来预测网站。

上表第4列是通过基本的IP指纹进行匹配的准确率。

7.1.4 通过Connectiong Bucketing加强过的指纹

给定一个IP地址序列 $[ip_0, ip_1, ip_2, \cdots, ip_n]$ ，首先将 $ip_0$ 和所有指纹进行匹配，获得候选集。对于 $[ip_1, ip_2, \cdots, ip_n]$ ，需要将其划分到3个桶里，基于在网络层每个连接的发起时间，使用k-means来将这些IP聚成3类，然后对于每个候选指纹，将指纹中的每个IP地址桶与聚类好的3个IP地址桶取交集。对于每个IP地址，把它的熵与候选指纹的总熵加载一起，最后选取熵最大的那个来预测网站。

上表最后一列是通过这种方法进行匹配的准确率。

对于剩余的9%的网站，20%的网站只有两个候选指纹，50%有10个候选指纹。如下图所示

在这里插入图片描述

通过手动检查这些指纹，发现许多情况下匹配到的候选域名通常指向同一个网站。这些大多数被那些相同名称在不同TLD下注册的组织拥有，例如bayer.de或bayer.com，或者域名的变种，例如christianrock.net和christianhardrock.net。

这意味着，91%的准确率可视为准确度下限。字符串相似度可以用来对相似的域名进行聚类，而图像相似度可以用来对具有相似的起始页截图进行分组。

7.1.5 Co-location和流行度对攻击准确率的影响

下图显示了指纹攻击成功的流行网站和敏感网站的散点图。和预期一样，没有和其他网站一起托管的网站使用指纹攻击是很敏感的。尽管co-location程度高，那使用加强过的指纹一样可以很好地识别。

在这里插入图片描述

下图展示了成功指纹识别的网站的流行度的累积分布函数。可以看到识别成功的网站数量略微倾向于更受欢迎的网站。
在这里插入图片描述

7.2 指纹稳定性

网站指纹失效的原因主要由两个：

网站可能会改变现存元素，移除或新增
域名和IP地址的映射会改变

由于基于ip的指纹是根据浏览目标网站与其引用的域名组成，因此首先评估后者的稳定程度。本文使用一种不同的方法对域名随时间变化进行度量。

令 $D_{t_0}$ 和 $D_{t_1}$ 表示在 $t_0, t_1$ 时刻浏览网站时发现的与其相关联的域名。网站的不同程度可以计算为：
$Difference\ degree = \cfrac{(D_{t_0}\cup D_{t_1}) - (D_{t_0}\cap D_{t_1})}{D_{t_0}\cup D_{t_1}}$