论文题目:CCSv6 ADetection ModelforDNS-over-HTTPS Tunnel UsingAttention Mechanism overIPv6
名称:CCSv6 ADetection ModelforDNS-over-HTTPS Tunnel UsingAttention Mechanism overIPv6
作者:信工所二室 liu qingyun老师团队
收录:2023 IEEE Symposium on Computers and Communications (ISCC) (CCF C)
研究背景:
很多人研究DoH隧道都是基于IPv4的DoH,很少人了解基于IPv6的DoH和基于IPv4的DoH有什么不同。大部分IPv4网络中DoH隧道检测的方法可以应用于IPv6网络,但大多数分类器的迁移学习能力较差。
研究内容:
模型结构:
分为DoH流量过滤、特征提取、分类模型三部分组成,整体框架如下:
DoH流量过滤:
根据https://publicdns.info长期提供的公共DoH解析器地址列表对捕获到的流量进行过滤,得到DoH流量。
特征提取:
使用DoHlyzerv6对每个流提取29个特征。DoHlyzerv6是在DoHlyzer基础上开发的python工具。可以从捕获的IPv6PCAP文件中提取统计特征和时序特征,输出CSV文件。
分类模型:
emm有点没看懂 CNN+attention
数据集分析:
数据集由IPv4数据和IPv6数据组成。根据不同的采集位置将IPv6数据集划分为若跟子集。如图所示。
采用不同的设置来模拟IPv6中受害者和攻击者之间可能存在的环境差异。我们采用的设定图所示。
设置三台运行Centos的服务器作为操作系统。两台服务器位于北京和上海,模拟受害者。另一台服务器位于北京,模拟攻击者。所有服务器只能通过IPv6通信。
良性流采集:使用两个受害服务器、两个浏览器(Chrome、Firefox)以及四个不同的DoH递归服务器来生成良性DoH流量。在每个设置中,自动访问200个可以通过IPv6访问的网站。
DoH隧道采集:将北京服务器作为域名的NS,并运行DNSTT、GoDoH、DNSExfiltrator和DeimosC2四个工具的服务器端程序。另外两个受害者服务器运行四个工具的客户端。使用textfiles,每个DoH隧道至少包含10组DNS查询和响应。
IPv4数据集直接来自CIRA - CIC - DoHBrw - 2020数据集,目的是评估本文提出的模型在未知环境下的迁移学习能力。
本文提出模型的SHAP汇总图。该图说明IPv6数据集和IPv4数据集共享相同的特征空间,但服从不同的分布。
实验结果分析:
首先在IPv6数据集上进行训练和测试。最后利用PIv4数据集验证本文模型的迁移学习能力。
**评价指标:**准确率、精确率、召回率、F1分数。
实验结果:在IPv4上证明有效的DoH隧道检测模型(DT、RF、GB)在IPv6数据集上仍然有效。
1)分析地理位置影响因素:利用不同地理位置的数据进行训练和测试,实验结果如图所示。实验结果表示,所有分类器的性能受位置的影响不大。原因可能是流的时长和字节数等相关特征,在IPv6情况下,由于较大的网络带宽和较小的路由器,不会随着DoH查询的发起位置变化而出现明显波动。所以对于DoH防御者来说,使用局部数据训练的分类器是有效的,仅依靠地理上的临近性不足以逃避检测。
2)分析不同递归服务器影响因素:利用使用不同递归服务器的数据分别进行训练和测试。实验结果如图所示。实验结果表明,使用不同数据集进行训练和测试,会使F1-score降低明显。原因可能是因为Cloudflare和Alidns数据集相关特征字节数不同,这种差异可能是由公共服务器采取的填充策略不同造成的。因此防御者应该使用多种服务器的数据进行训练。
模型迁移能力验证:在IPv6数据集上训练,在IPv4数据集上测试。
实验结果如图所示。所有分类器的性能都有明显的下降。本文提出的模型仍然保持很高的性能。
造成这找原因的可能是,简单分类器可能使用单一流的不同特征进行分类而IPv4和IPv6数据集具有不同的特征倾向。对于基于IPv6训练的分类器,其对于字节相关特征个数的判定边界,并不完全适用于IPv4数据集。
使用SHAP来描述两个数据集上的特征的重要性。
IPv4
IPv6
实验总结:
本文对DoH隧道分类器的影响因素进行了分析,如递归解析器的位置,攻击者离受害者的距离等因素。同时讨论了模型的迁移性,结果表明本文使用的CNN-attention模型相比DT、RF等机器学习模型有着更强的迁移性。
疑惑:讨论攻击者和受害者距离这个影响因素的时候,使用了北京和上海的服务器。我感觉并没有举例很远,而且性能确实有下降。如果更换一下攻击者服务器,使用境外的服务器等举例更远的,可能性能下降更加明显。不过IPv6相比IPv4可能确实影响程度更低一点。受制于篇幅大小,关于不同特征重要性的分析可能有点少。