【无标题】论文阅读1-Characterizing Heterogeneous Internet-of-Things Devices at Internet Scale using Semantic

荧光:帮助整体理解结构

红色字体:需要放图

划线:帮助理解段落结构

标题:英文Characterizing Heterogeneous Internet-of-Things Devices at Internet Scale using Semantic Extraction

中文:基于语义提取对互联网规模的异构物联网设备进行表征

组员:……

汇报:……

引言:

这篇文章主要介绍了一种基于语义提取来自动有效地识别在线设备特征的方法。随着物联网设备数量的迅速增长,其中存在潜在的漏洞引起了重大的安全问题。在线设备的特性将有助于保护这些潜在的易受攻击的设备这篇文章提供了一种基于从网络数据包中提取的语义信息来识别物联网设备的新技术,研究人员需要了解在线设备的特征以保护这些潜在易受攻击的设备。

这篇文章可以分为以下几个部分

一. 背景介绍:1)发展现状2)技术背景

二.半自动注释过程:描述生成语义提取的训练数据的半自动注释过程。

三.语义提取编码器和特征解码器的设计:详细介绍了语义提取编码器和特征解码器的设计。

四. 实验评估:展示了所提出方法的实验评估结果。

五. 结论:总结了本文的主要贡献和未来工作方向。

六. 小组分工

一、背景介绍

1.发展现状

物联网设备已经成为工业以及我们日常生活中不可或缺的一部分,网络连接的特性为这些设备的数据同步、远程访问和控制提供了便利。根据调查报告,到2030年,物联网设备的数量将激增至1250亿。不断增加的网络连接设备数量也引起了严重的安全问题,因为它们的潜在漏洞和错误配置。识别在线设备成为保护在线设备的前提步骤,在线设备的特征将有助于以主动的方式保护暴露在互联网上的潜在易受攻击的设备。

目前,现有的方法通常将设备特征枚举为关键字和规则,并将它们与物联网网络数据进行匹配。然而,物联网设备的异构实现引入了复杂的特征,这使得大规模识别变得困难。为了解决这个问题,本文提出了一种基于语义提取的方法来自动有效地识别在线设备的特征。

具体而言,该方法首先从物联网设备的网络数据中分离出应用层数据。然后,结合了基于协同训练理论的多个预测算法来半自动地注释物联网设备的网络数据以训练语义提取器。在注释过程中,研究人员注意到随着注释数据量的增加,精度损失和手动工作量也在增加,因此他们在注释数量、注释精度和手动工作量之间做出了权衡。经过注释过程后,研究人员获得了足够小但足够用于训练的数据集。最后,他们使用该语义提取器来识别物联网设备的特征,并在实验中评估了其性能。

2.技术背景

(1)在线设备发现。在Internet上,设备发现依赖于远程主机的网络数据。研究者向远程主机发送请求,收集其响应数据包,从网络数据包中提取应用层数据并输入到语义提取器中。它是请求和响应之间的常规过程,不需要远程主机的帮助。研究者使用SNMP、FTP、Telnet等多种协议进行全互联网扫描,收集响应数据,并对公众开放数据集

2)语义信息提取

语义信息提取是一种自然语言处理技术,用于从文本中识别有意义的词或者句子。实体关系抽取是语义信息抽取的关键组成部分,它揭示了不同实体之间共享的直接关系、连接或事件,以及通过推断的、间接的连接来揭示复杂的关系。基于上下文的语义模式从文本中提取重要词句已被广泛应用于自然语言处理。这种技术可以在没有预定义规则的情况下从文本中识别实体,例如人名、地名和书名等。基于文本的语义模式,设计良好的语义信息提取器可以识别标签超出训练数据集的新实体。它缓解了物联网设备识别中的规则枚举困难,同时,它只要求实体在文本中出现,就可以推断出它们之间的关系。这表明可以根据概率模型推断出缺少的信息,这有助于解决“device3”中缺少供应商信息的问题(见图2)。因此,本文使用基于实体关系提取的方法来提取物联网设备的特征。

二、半自动注释过程

半自动注释过程是本文提出的一种方法,用于生成IoT设备网络数据的训练数据集。由于缺乏可用的已注释数据集,手动注释需要大量人力成本。因此,本文提出了一种半自动注释算法来减少人力成本,注释过程如图所示。(PPT上    Fig. 3: The overview of annotation.

半自动注释是一种结合人工标注和机器学习算法的注释方法。本文使用半自动注释来标注IoT设备的网络数据作为语义提取的训练数据集。具体来说,首先手动标注了一部分IoT设备的网络数据,并将其作为训练集输入到聚类算法和协同训练算法中。然后,使用这些算法来对未标注的数据进行自动注释,并将其与手动标注的数据合并起来,形成一个更大更全面的训练集。

半自动注释方法可以大大减少人工标注的工作量,并且可以提高标注的准确性和效率。本文利用协同训练理论的优势,结合多种流行的预测算法对物联网设备的网络数据进行标注。这些算法都是基于协同训练机制的基本思想:取长补短。首先,手动标注一小部分数据,并使用三种无监督聚类算法:K-means、基于密度的带噪声应用空间聚类(DBSCAN)、排序点识别聚类结构(OPTICS)对数据进行聚类。聚类过程是根据聚类距离将标注从标注数据扩展到未标注数据。算法1描述了聚类过程,如图所示(PPT上放: Algorithm 1 The cluster algorithm for annotation.)

然后,基于聚类结果,使用由四种流行的监督算法组成的协同训练分类器:随机森林,Xgboost,支持向量机(SVM),朴素贝叶斯,以生成精确的注释数据集。四种算法中的任意两种在每轮中组合,这样做的原因是为了使每个分类器能够相互学习,通过互相学习,使用优化的分类器来预测未注释的数据集标签。该标注算法在有效生成标注数据的同时,减少了人工标注的工作量。算法2为标注的协同训练算法(PPT上放:  Algorithm 2 The co-training algorithm for annotation.)

  • 语义提取编码器和特征解码器的设计

在本文中,提出了一种新的语义提取器来识别物联网设备的特征。语义提取器由一个编码器和一个解码器组成。

1语义编码器

语义提取编码器是一种用于从物联网设备的注释数据中提取语义特征的模块。它以注释网络数据作为输入,通过一种新颖的神经网络模型——残差扩张门卷积神经网络(RDGCNN),提取语义特征,并将提取的特征向量输出给解码器中。

(PPT 放Fig. 4:The architecture of encoder)如图所示,这是语义提取编码器的架构。嵌入阶段由于神经网络不能直接处理文本数据,因此我们将物联网网络数据中的明文转换为数字向量,以便进行特征学习。将物联网设备数据转换为词向量、字符向量和句子向量,通过RDGCNN对词向量和字符向量进行处理,RDGCNN提取的特征与句子向量连接,输入到特征提取器Bert transformer中,进一步从句子向量中提取语义特征。Bert在自然语言数据上进行预训练,RDGCNN可以帮助Bert微调到物联网网络数据。最后,转换层将提取的语义特征输出到解码器中。

编码器由多个卷积层和池化层组成,可以有效地捕获网络数据中的空间和时间特征,它将输入数据分为多个子序列,并对每个子序列进行卷积和池化操作,以提取其特征。最后,所有子序列的特征被合并为一个全局特征向量。

RDGCNN由残差扩张卷积和残差门控卷积两种卷积组成在卷积神经网络中,接收域是影响网络特定单元的输入空间区域,接收域的扩展有利于提取通常包含长文本的物联网设备数据的语义信息。扩张卷积(DCNN)是通过增加卷积的接收域来增强卷积神经网络的能力的,随着卷积层深度的增加,梯度消失问题会阻碍学习过程的有效性,导致神经网络的退化。而门卷积缓解了随时间反向传播训练循环连接时出现的梯度消失和爆炸问题,将残差块的结构引入门控卷积以优化其性能。

2特征解码器

(PPT 放Fig. 5:The architecture of decoder)如图所示,这是实体关系解码器的架构。实体关系解码器是一种用于对提取的语义特征进行解码来生成物联网设备特征的模块,它以特征向量为输入,分析向量之间的实体关系,并输出物联网设备的特征,通常以三元组(类型、品牌、型号)的形式呈现。

实体关系解码器是一个分层结构,由主题提取层和关系-对象提取层组成。在主题提取层中,主题提取层利用从编码器中提取的特征,根据公式计算文本中潜在主题的可能性,然后输出可能性最大的项目并从网络数据的文本中提取该词在关系-对象提取层中,解码器遍历关系(供应商)集,从文本中抽取可能性值最大的对象,计算中使用的对应关系作为最大可能关系然后结合主题提取层,语义提取器可以生成物联网设备的特征。

解码器由多个全连接层组成,可以将编码器输出的全局特征向量映射到设备标签空间中。具体来说,该解码器使用softmax函数对每个标签进行预测,并输出一个概率分布向量。

  • 实验评估:

本文进行了实验评估来验证所提出的方法的有效性。使用两个数据集进行实验评估:一个是从公共数据源中收集的IoT设备数据集,另一个是从真实网络中收集的IoT设备数据集。将方法与其他现有方法进行比较,并使用准确率、召回率和F1值等指标来评估其性能。

对于训练集和测试集,我们将包含210354个条目的数据集按8:2分割。数据集中存在22种不同类型、63家不同供应商和969种不同型号的物联网设备。供应商级别和模型级别的精度如图所示   Fig. 7: The precision of the extractor at vendor level and model

level.)。“Switch”在供应商级别和型号级别的精度最高,分别为97.7%和96.8%,而“Modem”在供应商级别和型号级别的精度都相对较低。模型层的精度与供应商层的精度呈正相关,说明模型生成的大部分误差是由供应商的误差产生引起的。原因是该解码器包含两层:主题提取层和关系-对象提取层。这种体系结构导致对象提取高度依赖于关系预测,即模型生成高度依赖于供应商预测

为了评估每个特征(例如:词、字符、句子)在语义分析中的有效性研究者通过单独采用每个特征来训练提取器来进行精度测试。结果见表(TABLE III: Contribution of each features in semantic analysis.)

比较基于规则的算法、shodan和提出的基于语义提取的方法在类型、供应商、型号和识别时间方面的识别数量。结果见表TABLE IV: Performance comparison明显体现了基于语义提取的方法优于另外两种

最后研究者利用此方法揭露了3,213,110个易受攻击的物联网设备及其漏洞。

如图(Fig. 10: The vulnerabilities distribution of exposed IoT de-vices漏洞设备,缓冲区溢出占25.0%;访问控制不当,占22.8%。其余暴露的漏洞各不到10%。缓冲区溢出是一个严重的漏洞,通常用于在基于linux的设备上获取“root”帐户的全部权限。攻击者一旦获得根权限,就可以任意操纵物联网设备。

实验结果表明,所提出的方法在两个数据集上均取得了优于其他现有方法的结果,并且在不同参数设置下都具有较好的稳定性和鲁棒性。这表明这个方法可以有效地识别IoT设备的特征,并具有广泛应用前景。

五. 结论:

本文的主要贡献在于提出了一种基于语义提取的方法来自动有效地识别在线设备的特征。与现有方法相比,该方法具有以下优点首先,它可以处理异构实现的物联网设备,因为它不需要枚举所有可能的特征。其次,它可以自动地从网络数据中提取特征,减少了手动工作量。最后,它可以在大规模网络中进行操作,并且具有较高的准确性和可扩展性。

此外,在本文中,研究人员还分析了物联网设备的特征,并发现了超过1500万个设备。这些结果表明该方法是可行和有效的,并且可以用于保护物联网设备免受潜在攻击。

这项研究对于保护物联网设备免受潜在攻击具有重要意义,并为未来相关领域的研究提供了有价值的参考。

六. 小组分工

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值