论文阅读6:A Threat Intelligence Analysis Method Based on FeatureWeighting and BERT-BiGRU for Industrial

本文提出一种基于特征加权和BERT-BiGRU的工业物联网威胁情报分析方法,通过预处理、BERT模型和BiGRU模型对威胁情报进行分类,结合ATT&CKforICS的知识加权攻击行为,生成威胁值以支持应急响应。实验结果显示该方法在准确性和效率上优于传统方法,适用于非结构化威胁情报分析。
摘要由CSDN通过智能技术生成

0 Information for thesis

标题A Threat Intelligence Analysis Method Based on FeatureWeighting and BERT-BiGRU for Industrial
期刊SECURITY AND COMMUNICATION NETWORKS
分区4区
年份2022
引用数4
关键词工业互联网(IIoT)、威胁情报分析、ATT&CK

摘要:

5G技术与工业物联网(IIoT)的结合,使得实现万物互联成为可能。尽管如此,它也增加了大规模DDoS攻击和IP欺骗攻击等攻击的风险。威胁情报是对工业互联网造成潜在和非潜在危害的信息集合。从威胁情报文本中提取网络安全实体及其关系,构建结构化威胁情报信息对于工业物联网安全防护尤为重要。然而,威胁情报多为文本报告,这意味着价值信息需要安全分析师手动提取,高度依赖人员经验。因此,本研究提出一种基于特征加权和BERT-BiGRU的工业物联网威胁情报分析方法。该方法利用BERT-BiGRU对攻击行为和攻击策略进行分类。然后根据ATT&CK for ICS知识中攻击策略和攻击行为之间的关系,对攻击行为进行加权,使分类结果更加准确。最后计算攻击的可能性和攻击的危害程度,形成攻击的威胁值。安全分析人员可以根据威胁值判断应急响应顺序,提高应急响应的准确性和效率。结果表明,本研究提出的方法比其他标准方法更准确,更适合工业物联网的非结构化威胁情报分析。

1 Purpose

文章要解决的问题:如何自动结构化文本报告式威胁情报。

提出的方法:利用BERT-BiGRU对攻击行为和攻击策略进行分类。然后根据ATT&CK for ICS知识中攻击策略和攻击行为之间的关系,对攻击行为进行加权,使分类结果更加准确。最后计算攻击的可能性和攻击的危害程度,形成攻击的威胁值

2 Technology

2.1 数据预处理

工业物联网威胁情报数据采集过程中通常存在多种数据源:同构或异构数据库、文件系统、服务接口等。不同的数据源一般是互补的,在数据​​完整性、准确性、呈现格式等方面存在差异,容易受到噪声数据、数据值缺失、数据冲突等影响。

因此,需要对采集到的数据集进行预处理,以保证数据的准确性、一致性、以及高质量的数据分析结果。从图2可以发现,本研究中的威胁情报数据预处理分为威胁情报数据标准化、清洗、缩减三个阶段。

2.1.1 标准化

通过开源获得的数据可能有多种结构和类型。通过威胁情报标准,作者标准化了不同来源的威胁情报数据的呈现。具体操作包括词根处理词素处理。这一过程有助于将这些复杂的数据转化为单一或可管理的结构,以达到快速分析和处理的目的。

2.1.2 清洗

并非攻击事件中的所有数据都有价值。有一些数据可以忽略不计,甚至有一些数据是完全错误的干扰。因此,有必要使用各种验证方法来删除妨碍分类的不准确数据(单词缩写、异常间距、非单词字符以及任何非计算机相关术语)。本研究使用过滤方法提取有价值的数据并自信地标记信息

2.1.3 缩减

这个过程就是合并威胁情报数据。特征缩减技术可以在不影响分析结果准确性的情况下减少和简化数据集的规模,有助于提高威胁情报数据的价值密度。特征约简公式如下所示:

其中α和β分别是两种不同类型特征的测量值集合。 n1和n2是相应的样本号。 SE(α − β) 是特征的方差。特征的冲突用于对特征的均值进行归一化。 TEST 功能是为了比较而构建的。随着偏差的严重增加,该特征的重要性也随之增强。否则,该功能的重要性就会降低。(暂不理解

2.2 攻击行为识别与分类

2.2.1 攻击行为和攻击策略的识别

分类模型由BERT模型和BiGRU模型组成。 BERT模型仅用于提取句子表示,而BiGRU模型用于对威胁情报中的攻击行为和攻击策略进行分类。

图3即为提取过程,首先将预处理后的威胁情报内容输入到BERT模型中,经过模型的两次预训练任务后进行向量表示。随后,输出与全文语义信息融合的向量表示。然后,将BERT模型的输出输入到BIGRU模型中。 BIGRU模型通过词向量映射的方式通过全连接(FC)层提取威胁情报的抽象特征。它通过在 FC 层之前添加注意机制来为基本属性赋予更高的权重,从而促进特征提取。为了完成威胁情报中攻击行为和攻击策略的多标签分类任务,需要在模型中连接FC层和softmax,对威胁情报文本的深层语义特征进行分类。

2.2.2 攻击行为的特征权重

根据ATT&CK for ICS知识,一个攻击策略连接了多种不同的攻击行为,攻击策略和攻击行为之间存在依赖关系。

例如,当某个攻击策略的概率增大时,该策略内的攻击行为的概率也会相应增大。通过分析提取攻击策略和攻击行为之间的关系,可以更准确地应对当前的攻击威胁。因此,基于攻击策略与攻击行为之间的关系,本研究设计了攻击行为特征加权方法,该方法的关键步骤如下式所示:

z为攻击策略识别结果,Labeled - Tact按指数形式处理后的值。 Labeled - Tech 为特征加权攻击行为识别结果。在此基础上,成功实现了对威胁情报数据的深度分析,可以输出具有较高准确性和可读性的结构化攻击行为标签和相应的概率值。

2.3攻击行为威胁值的生成

基于MITRE发布的常见攻击模式枚举与分类(CAPEC)的数据,计算了攻击行为的可能性和危害程度,形成了攻击行为的威胁值。

CAPEC 和 ICS 的 ATT&CK 中的攻击行为标签是相同的。在计算攻击行为的威胁值时,我们首先将ICS的ATT&CK中的攻击行为映射到CAPEC中,如公式(5)所示。其次,我们将非结构化CAPEC级别标签量化为1-5,如公式(6)和(7)所示。由于“典型严重度”指标对于攻击防御更有价值,因此赋予其较高的权重,如式(8)所示。然后将CAPEC指标评分与攻击行为标签分类结果相结合,形成各攻击行为的威胁评分,如式(9)所示。

3 Experiment

3.1 Overview

本研究提出了一种基于特征加权和BERT-BiGRU的工业物联网威胁情报分析方法。该方法概述如图1所示。首先采集开源威胁情报平台上的IIoT威胁情报数据,完成清洗、去噪等数据预处理操作;其次,对预处理后的数据进行分词和BERT句向量获取,构建基于BERT-BiGRU的多标签分类模型。对威胁情报的攻击策略和攻击行为进行分类识别。在识别结果的基础上,根据策略标签与其内部行为标签的依赖关系对所有行为标签进行加权,以获得更准确的攻击行为识别结果。最后对攻击风险指标进行测量,得到攻击行为威胁值。攻击行为的威胁值代表了攻击行为的危害程度,为应急响应和处置提供参考。

3.2 Experiment 1

实验1:以Industroyer攻击为例进行实例分析与演示。

实验所需的文本如图4所示,基于本文的方法所产生的分析结果如图5。根据结果进行真值表示后如图6,实验结果如表2。

图4显示了IBM安全平台上的Industroyer攻击事件文本,图5显示了使用本研究中提出的方法获得的识别结果。

为了增强识别结果的可读性,利用 Neo4j 技术构建了真值图,如图 6 所示。与 MITRE 平台提供的、被安全专家广泛识别的 Industroyer 攻击详细列表进行匹配后,本方法的识别结果准确率和召回率分别高达89.87%和87.1%

3.3 Experiment 2

实验2:对比实验。

采用三种对比实验:

1.本方法与没有特征加权的BERTBiGRU方法的比较;

2.本方法与KNN、随机森林的比较;

3.本方法与SyntaxNet方法的比较。

从准确率和召回率两个方面对结果进行分析和讨论。

3.3.1 对比加权的效果

SVM模型的结果比其他方法稍好,但精度比该方法低很多。 KNN分类方法无需训练,节省时间,但存在计算能力普通的缺点。套袋方法准确度高。尽管如此,在训练过程中还是考虑了所有预测变量,并且更稳健的预测变量被放置在方法的顶部分割点。因此,该方法的可靠性相对较低。随机森林方法使用决策树作为初级分类器,提高了整体召回率。但由于迭代次数较多,既浪费时间又容易出现过拟合

3.4 Experiment 3

实验3:攻击行为威胁值的有用性验证。我们聘请了四位安全专家和我们一起进行实验。通过将本研究提出的方法的实验结果与安全专家的评估结果进行比较,验证了本研究提出的攻击威胁值生成方法的合理性。

实验中选择了“中间人攻击”、“洪泛攻击”、“鱼叉式网络钓鱼”、“代码包含”等方式来模拟对工控系统的攻击。

从表4可以看出,本研究提出的方法的评估结果与安全专家给出的评估意见一致。攻击行为的威胁是洪泛>中间人攻击>鱼叉式网络钓鱼>代码包含。实验表明,本研究提出的攻击行为威胁值生成方法能够有效分析攻击行为的威胁程度并进行预警响应。根据攻击行为的威胁评分,工业物联网的信息安全分析师可以采取相应的预防措施,以确保工业物联网的安全运行。

3.5数据集问题

重现这些发现所需的原始/处理数据目前无法共享,因为这些数据也是作者正在进行的研究的一部分。

4 Harvest

4.1 收获

1.数据预处理中使用了缩减技术,尽管还没有看懂公式,但是其表达的意思应该是精炼数据集的冗余数据,以图4为例,有很多重复话语,甚至有图的号,这些都需要进行精炼,思维可以保留。公式需要再搞懂。

2.实验设计较为全面,在其他论文中,大多数看到的只有对比实验,少数有案例分析,但是实验三的可行性验证几乎没有在其他文章中看到,值得学习。

4.2 问题

1.在实验2中,未曾看见与SyntaxNet方法的比较结果和分析。

2.为什么在对比实验中不与其他的BERT或者其他的深度学习模型作比较,而选择了机器学习做比较。

5 Supplement

5.1ATT&CK for ICS

“Mitre ATT&CKTM: Design and Philosophy,”

https://www.mitre.org/sites/default/files/publications/pr-18-0944-11-mitre-attack-design-and-philosophy.pdf.

ATT&CK for ICS是反映工业控制系统在每个攻击生命周期中的攻击行为的模型和知识库。它由三部分组成:战略、技术、流程。该设计代表了攻击者试图实现的目标。技术和流程代表攻击者为实现目标而执行的行为。目前,ATT&CK for ICS涵盖了11种攻击策略和81种攻击行为。

5.2CAPEC

“Common attack pattern enumeration and classification (CAPEC) schema”

CAPEC是美国国土安全部于2007年建立的攻击类型枚举和分类数据集,是被广泛接受和认可的攻击模式公共标准,如表1所示。CAPEC由“攻击可能性”两个指标组成和“典型的严重程度”。两者均分为五个级别,包括“很低”、“低”、“中”、“高”和“很高”。 “攻击可能性”代表攻击行为成功的概率。它考虑相关因素,包括攻击先决条件、所需的攻击者资源以及可能的对策。 “典型严重性”旨在揭示成功攻击行为后果的严重程度。

  • 11
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值