顶会论文阅读总结1

论文阅读总结——Exposing the Rat in the Tunnel: Using Traffic Analysis for Tor-based Malware Detection

论文介绍

该论文2022年发表在ACM SIGSAC Conference,是一篇使用流量分析检测基于Tor的恶意软件的论文。

背景

Tor

  1. 原理介绍
    The Onion Router(Tor):是一个三重代理,是目前使用最广泛的开源匿名通信软件。可以提供用户匿名和服务器匿名这两种服务。用户匿名是通过一个包含三个洋葱路由组成的路径实现的;服务器匿名则是通过一个包含六个洋葱路由的HS(Hidden Services)路径来实现。
  2. 特点
    1)可复用:一个TOR环路可以被很多人同时使用,说的具体一点,hop与hop之间的每个TLS连接都包括了很多不同用户的TCP数据流;
    2)节点选择随机性:TOR客户端随机选择了入口节点,入口节点随机选择了中间节点,中间节点又随机选择了出口节点;
    3)应用无关:独立于操作系统和浏览器的严格的基于数字证书的身份认证机制

当前相关研究存在的挑战

1、使用IP或者域名黑名单的方法、识别TCP流的频率的方法和基于DNS解析记录的方法对基于Tor的恶意软件检测的有效性很低;
2、传统方法不能检测基于Tor的隐形变体,也不能区分良性和恶意Tor连接。

多标签分类

与多类别分类不同的是,多标签分类中一个输入可能对应有多个输出标签。
链接: 多标签分类详解.

数据收集

二进制文件收集

1、收集:恶意软件的Tor二进制文件收集:从VirusTotal(VT)平台按照以下三个规则搜索:tor关键字、onion关键字和tor连接相关的关键字,如“ tor.exe”和“consensus”,并下载二进制文件,VT中的文件对象包含几个有用的属性,包括勒索软件、间谍软件等恶意软件行为的代表性特征和威胁类别标签。
2、验证:
1)是否是Tor连接:下载收集的二进制文件的PCAPs,检查Tor连接流量。本文使用Zeek生成基于应用协议组织PCAP信息的日志,使用conn.log(检查tor连接)和ssl.log(验证路由器证书);conn中包含TCP流量的连接详细信息,日志中包含验证步骤的SSL握手证书详细信息。
2)是否为恶意软件的二进制文件:使用VT恶意得分(检测二进制文件为恶意的VT引擎的数量)来确保收集的二进制文件确实是恶意的,最终过滤得到523个恶意Tor二进制文件。

恶意软件二进制类别

使用Avclass(投票)和AVclass2工具自动给二进制文件打标签,得到每个二进制文件的哈希,包括AV得分、类标签和最有可能的恶意软件家族。

图2展示了每个家族中之前收集到的恶意软件二进制文件的分布,前三分别是Nymeria、Agentb和Cryptoff:80,39,28个。

恶意软件二进制文件特征

本文将活动的所有二进制文件分为了不同的类,如图所示。可以发现,总共有八个类,大部分都属于grayware类,且一个恶意软件二进制文件可以有一个或多个类标签。
在这里插入图片描述
从图中可以发现大部分恶意软件都属于grayware类,这个类还包括其他类。同时作者观察到不同的binary展示了多类别行为,比如47个binaries属于grayware、miner和downloader。

恶意软件流量和良性流量表征

恶意软件的Tor连接特征: 本文的实验数据集中的恶意软件Tor连接持续至少19s,并且每个连接平均有181个TLS包发送和393接收。

从图中数据可以得出:恶意软件Tor连接接收的数据比发送的数据更多,72%的Tor连接发送最多0.1MB数据,接收最多0.68MB数据。
良性流量的Tor连接特征: 本文的实验数据集中的良性Tor连接持续至少38s,并且每个连接平均有259个TLS包发送和574接收。
在这里插入图片描述
结论: 事实上,恶意软件Tor连接中交换的数据的分布似乎与轻度和中度良性配置文件特别相似(分布甚至相交),大约70%的连接交换了高达0.7MB的数据。良性和恶意软件流量的相似性使得具有代表性的实验数据集能够反映真实流量捕获,恶意软件流量混入良性的可能性更高。

特征与数据处理

Tor连接特征

本文从每个PCAP文件中的前三个活动Tor连接提取WF特征(proposed by Hayes)(总150个), 包括Tor连接中的时间、方向、顺序和包的密集程度等特征信息,如图2所示。

良性和恶意Tor流量之间的差异源于:
1)服务器流量指纹(模式、突发性、连接寿命、频率等)
2)客户端异常。服务器流量指纹由连接特征识别;客户端异常则由主机级别特征识别。
我们在流量PCAP中观察到,前三个足以获得所有活动数据交换Tor连接,这正是我们进行流量分析所需要的。

主机特征

本文提出了由总共40个通用特征和22个新特征组成的主机级别特征,如表2所示。通过分析主机启动的所有Tor连接(包括主机级别(或PCAP)的失败和不太活跃的连接)来捕获可能暴露的恶意软件行为。

1)通过查看在尝试失败的情况下主机上看到的短暂Tor连接的数量、进行这些尝试的频率以及相应的DNS活动,可以更好地捕获连接到C&C的恶意软件尝试。
2)Duration特征可以更好地捕获连接到C&C的恶意软件尝试;我们使用每个Tor连接之间的平均时间间隔(以秒为单位)作为捕捉异常连接模式的特征。
3)恶意软件可能无法成功使用Tor联系其目的地。在这种情况下,它可以使用其他方法来访问其隐藏服务,例如通过Tor2Web。这样做会导致受感染主机的DNS活动中出现洋葱域泄漏。
4)一些与 Tor 的非官方或修改版本捆绑在一起的二进制文件联系私有服务器获取路由器共识信息,在这种情况下恶意软件流量中使用过时的 Tor 端口,导致恶意软件尝试建立多个 Tor 连接。因此本文使用所有 Tor 连接中 PCAP 中看到的目标端口数量、看到的唯一 DST 端口数量特征。

数据预处理

1、Tor连接提取
Tor连接提取过程
最终从良性PCAP获得了13214个Tor连接。对于恶意软件Tor连接,从之前收集到的数据中导出了四个数据集,如表3所示。

D5由157个恶意软件二进制文件的流量组成,每个二进制文件都有五个PCAP,都包含恶意软件流量。最后,从这五个PCAP中的每一个中提取前三个最活跃的Tor连接,在该数据集中产生2027个分类器实例,其他数据集类似。

实验评估

二分类实验

本文使用亚马逊开发的自动机器学习(AutoML)工具AutoGluon进行分类,并使用精度、召回率和误报率(FPR)三个评估指标对模型的性能进行评估。AutoGluon基于原始表格数据训练至少八个基础机器学习和两个神经网络模型,该工具使用随机分层数据分割迭代地训练每个模型,本文使用balanced_accuracy指标使其在训练过程中优化模型。训练结束,Autogluon根据所选的指标报告最佳性能模型。

实验1: 增加每个二进制文件中pcap文件或训练实例的数量是否会影响二进制分类问题的性能
训练过程:

分类实例的表示如图所示:

实验结果:

结论:
① 以减少唯一二进制文件总数为代价,增加用于训练模型的每个二进制文件的流量实例数不会显著影响性能。从表中数据可以发现,通过将每个二进制文件的实例数增加到D20,召回率和精度显著提高,之后D30的这一增益略有下降(可能是因为它覆盖了较少数量的唯一二进制文件)。然而,FPR似乎随着唯一二进制数的减少而增加。
② 对于D5,FPR为0.88%,D20和D30的FPR分别逐渐增加至1.55%和1.52%。根据我们的观察,我们选择D5作为进一步实验的主要数据集,因为与其他数据集相比,D5由来自最大数量的二进制文件(157)的流量组成,并且实现了最低的FPR和最高的AUC,这表明在类之间的分离能力优越。
实验2: 研究主机级和连接级特征的影响,并比较Autogluon模型(我们将其视为黑盒)和其他的卷积神经网络(CNN)性能
实验流程:
使用13214个良性和2027个恶意软件分类实例,用于训练Autogluon中的所有机器学习和深度学习模型,以及Var CNN和DF。
使用785个恶意软件和4615个良性分类器实例的仅主机特征来评估Autogluon模型。
实验结果:
在这里插入图片描述
主机级特征是使用所有Tor连接根据PCAP全局导出的,因此与使用每个PCAP前三个活动Tor连接相比,在这种情况下分类实例的数量减少了。请注意,对于E1、E2和E3,列出的模型是Autogluon排名的性能最佳的模型。
结论:
① 可以观察到,对于使用Autogluon的实验E1到E3,LightGBM和XGBoost优于所有其他模型。
② 在E4和E5中,本文评估了DF和Var CNN中提出的CNN模型的性能。本文使用了不同时期的推荐参数,Var CNN使用半自动特征输入,提供七个附加特征:传入和传出单元总数、传入/传出单元与单元总数的比率、每个传出单元之间的平均秒数以及总传输时间。这两个模型的检测召回率都比较低,还是Autogluon模型更加适合。
③ 这些模型中召回率显著较低的一个原因可能归因于数据集太小,但是由于收集数据的难度,还是LightGBH更好。
④ 在E2中的新主机级别特征在所有汇总的准确性度量中都优于仅使用连接特征。

多标签分类

本文使用了3种多标签分类技术评估了随机森林模型,即二元相关性(BR)、分类器链(CC)和标签功率集(LP)。实验使用的是D5数据集,D5中的二进制文件分为9个类,平均每个二进制文件有两个标签。
评估度量指标: 使用标准的多标签分类度量,即汉明损失、微平均精度和召回率
实验结果:

本文用从VCLASS2中派生的各自的类标签(如第3.3.1节所述)在D5中标记二进制文件。D5中的二进制文件分为以下9个类:“灰软件”(94)、“下载器”(88)、“勒索软件”(26)、“矿工”(31)、“蠕虫”(6)、“键盘记录器”(1)、“间谍软件”(3)、“后门”(4)、“病毒”(4个)以及与“未知”标签同义的“单例”(12)类别,其中括号中的数字对应于属于该类类型的二进制文件的数量。D5中的所有二进制文件平均有两个标签。每个二进制分配的类标签的范围从最少一个标签到最多四个。
微观平均精度:在计算公式中考虑到了每个类别的数量,所以适用于数据分布不平衡的情况。
结论: LP预测正确标签组合的数量最多,召回率为72.37%,是所有技术中召回率最高的。

ZERO-DAY测试

作者评估最佳性能模型(在第 5.3 节和第 6 节中讨论)在面对训练过程中从未使用过的新恶意软件二进制文件时的表现。
数据集: 使用第3.1节中描述的相同方法,使用这些文件收集恶意软件流量。每天在沙盒上执行这些二进制文件一周,平均每天提交400次。处理恶意软件和良性PCAP,并从活跃的Tor连接中提区单元。对于恶意软件,本文获得了两个二进制文件B1和B2,它们在某些执行过程中生成活动的Tor连接 :
在这里插入图片描述
本实验使用的数据集包含来自 B1 和 B2 恶意软件的 42 个 Tor 连接以及来自我们的浏览脚本的 2,953 个良性 Tor 连接。

二分类实验

模型: 本文使用性能最好的LightGBM模型,具有连接和主机级特性(表5中的E3)。请注意,该模型是在D5上训练的,它不包含本次零日测试中使用的EternalRocks恶意软件家族的二进制文件们获得了两个二进制文件,它们在某些执行过程中生成活动的Tor连接。
实验目标: 成功识别来自良性的恶意软件 Tor 连接
测试场景: 使用42个恶意软件连接和2953、808、370和170个良性连接创建了四个测试场景,分别对应于每个场景中使用的连接总数的大约1%、5%、10%和20%的恶意软件连接
实验结果:
在这里插入图片描述
结论: 无论测试集中恶意软件流量的比例如何,分类器都可以识别所有FPR低的恶意软件连接(100%召回)。在1%的恶意软件连接情况下,分类器可以达到1.1%的FPR,精度为54.5%。正如预期的那样,在这种情况下,由于正类测试实例(42)的数量显著低于负类测试实例2953的数量,由于严重的类不平衡,精度降低。此外,即使是少量的假阳性(本例中为35)也会对精度造成影响。尽管精度很低,但FPR没有受到影响,因为相对于测试中阴性类别的总规模,假阳性的数量要低得多。所有情况下的FPR在0.7%至1.2%之间

恶意软件类标签识别实验

实验场景: 使用42个恶意软件连接实例,实例具有以下真实标签:勒索软件、灰色软件、蠕虫和下载器
实验结果:
① LP模型具有最高的召回率和最低的汉明损失(错误预测标签的平均数量),召回率为40%,而BR和CC的召回率分别为29%和33%。BR和CC模型的召回分数较低是因为“未知”标签,分别占总连接的16%和7%。
② LP模型实现的精度为94.37%,低于BR和CC实现的完美100%精度。这意味着尽管某些连接缺少BR和CC的一些标签,但预测的标签是100%正确的。LP模型成功地用每个实例相对更正确的标签标记所有恶意软件实例(高召回率),并在预测中使用最少数量的错误标签(低汉明损失)。

总结

① 本文作者收集并验证的基于Tor的恶意软件二进制文件,并将其部署数月,以收集其流量,还收集了在模拟不同用户配置文件的相同沙盒环境中使用Tor浏览器生成的良性流量,组成实验数据集。
② 本文提出新的主机特征来识别恶意软件Tor连接,同时对其进行多标签分类。实验证明,分类器能够以高精度、高召回率和低FPR识别恶意软件连接,也可以根据恶意软件的行为来识别恶意软件类标签。
③ 最后,本文提出的模型在面对新的零日二进制文件时也具有识别所有恶意软件连接的有效性。

  • 16
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值