ML4SC 2019 会议(1)Network Data Collection, Fusion and Analytics for Cyber Security学习笔记

Network Data Collection, Fusion and Analytics for Cyber Security 学习笔记

Introduction
实现网络安全不仅依赖于防御技术,还依赖于检测和发现网络入侵、威胁和攻击的技术。其中,网络数据起着至关重要的作用。然而,用于安全检测的网络数据(即安全相关数据)通常具有大数据特征。如何高效、经济、准确地对其进行采集和处理,成为网络安全测量面临的一大挑战。
在本文中,介绍异构网络中的自适应网络数据采集、用于高效网络入侵检测和经济数据存储的数据融合和压缩方面的最新研究成果。一种应用层隧道检测方法,包括规则和机器学习,以及对网站上发布的意见进行数据挖掘和分析,以检索信任信息和产生声誉。致力于安全相关网络数据的收集、融合、挖掘和分析,我们努力以上下文感知的方式收集和处理尽可能少的数据,但要尽可能精确安全检测结果。
Measure security,:How? Network security related datapossible? → Detect network threats → measure security
通过研究安全事件数据(安全相关数据),可以对网络系统安全进行量化和测量。
异构网络与传统网络的:不同的数据类型 → 何时、如何collect大量数据 → 减少数据收集的规模
key issues : an economic and pervasive solution一个低成本、灵活、高效和通用的软件解决方案,用于在异构网络中收集与安全相关的数据
work:
1. 提出了 security-related data description language (SDDL)来描述安全相关数据
2. 设计自适应采样算法来收集数据以提高采集效率,同时保证安全
3. 设计和实现自适应网络数据采集系统(移动终端、网络主机、网络节点等)
4. 基于网络拓扑结构、网络性能和流量特性的SDN自适应数据采集

Adaptive Network Data Collection
网络安全通常反映在网络系统中可以收集的一些相关数据。通过学习和分析这些数据,称为安全相关的数据,我们可以检测到入侵的网络系统,并进一步测量其安全级别。
显然,检测网络入侵的第一步是收集与安全相关的数据。然而,在5G和大数据的背景下,由于网络的异构性和数据量的不断增长,这些数据的采集面临着诸多挑战。因此,传统的数据采集方法不能直接应用于下一代网络系统中,特别是与安全相关的数据。
设计并实现了一种基于网络上下文的异构网络安全相关数据采集器。该收集器通过设计一种安全相关数据描述语言(sddl)来指导不同网络环境下的安全相关数据收集,解决了网络系统异构性带来的问题。
SDDL根据对网络上下文的检测,指定应以何种方式、在何种位置收集何种类型的数据。
SDDL还标记了关于数据处理方法和数据可用于检测的目标攻击的标签。通过将SDDL与网络上下文检测相结合,所提出的收集器能够在大规模异构网络中灵活地收集具有上下文感知的任何网络节点的数据。此外,通过引入自适应采样算法,可以进一步提高数据收集效率,并且可以减少所收集的数据的体积,保证数据收集的准确性。基于原型实现的性能评估显示了自适应安全相关数据采集器在一些预定义的设计需求方面的有效性。
system model
任何网络???
SDDL具有以下优点:
* clarify security-related data
* achieve purposeful collection instead of collecting data without concrete targets
* overcome network heterogeneity(克服网络异质性)
* support security-related data collection at any nodes
* facilitate the subsequent storage,access,and process of the collected data
* the coupling degree of data collection and network system can be reduced

adaptive collection frequency adjustment strategies
如何减少收集的数据大小?
两种可适应样本算法基于预测来获取数据变化:预测变化率(ACFAS_PVR)、预测精度比(ACFAS_PAR)根据数据变化调整样本频率
Network data fusion for intrusion detection
随着网络规模的不断扩大,网络流量的增长给ddos洪泛攻击和放大攻击的检测带来了巨大的挑战。不完全的网络流量采集或大流量网络流量的非实时处理将严重影响攻击检测的准确性和效率。近年来,草图数据结构在高速网络中被广泛应用于网络流量的压缩和融合。但是,由于hash函数的不可逆性,草图存在可逆性问题,使得重构一组表现出异常行为的密钥变得困难。
为了解决上述问题,我们首先设计了一种基于中国剩余定理的可逆sketch(CRT-RS)。crt-rs不仅能够压缩和融合大容量的网络流量,而且能够反向发现异常密钥(如恶意或不想要的流量来源)。然后,基于CRT-RS生成的流量记录,提出了一种改进的多图累积和(MM-CUSUM)算法,该算法支持自适应和协议无关检测,用于检测DDoS洪水攻击和放大攻击。通过几个开源数据集对该检测方法的性能进行了实验验证。实验结果表明,该方法能有效、准确、适应性强、协议无关性强地检测ddos洪水攻击和放大攻击。此外,与其它基于sketch技术的攻击检测方法相比,该方法在恢复异常源地址时具有可量化的较低计算复杂度,这是该方法最重要的优点。
Background
DDoS flooding attacks: direct flooding attacks and indirect flooding attacks.
The existing problems of DDoS flooding attacks detection:
lack effective traffic compression and fusion methods. 缺少有效的流量压缩和融合的方法
lack protocol independent detection methods.缺乏协议无关的检测方法
针对DDoS洪泛攻击,提出了新的网络融合分析方法。提出基于中国剩余定理的可逆sketch(CRT-RS);用CRT-RS检测不同协议下的直接和间接的洪泛攻击
Network data analytics for malicious tunnel detection
应用层隧道通常用来构建秘密通道来传输秘密数据,近年来经常被应用于提高网络威胁。应用层隧道异常检测有助于识别各种网络威胁,具有很高的研究意义。然而,现有的基于特征签名的检测、基于协议异常的检测、基于行为统计的检测等方法存在误报率高、效率低、对加密隧道无效等缺点。识别率低,实时性差。 为了克服上述问题,我们对应用层隧道检测进行了探索,提出了一种基于规则和机器学习相结合的通用检测方法。
我们的检测方法由两部分组成:基于规则的域名过滤和基于机器学习的隧道检测通用特征提取框架。我们采用一个三元模型来设计基于规则的DGA域名过滤,它可以识别具有明显特征的隧道,以减少基于机器学习的检测中需要进一步处理的数据量。因此,我们的方法可以大大提高隧道检测的效率和实时性能。在机器学习方面,结合多种检测方法,支持网络层、传输层和应用层,对隧道检测进行多种统计和安全相关的特征提取,提出了一种通用的特征提取框架。因此,我们的方法可以保证高准确率和低假阳性率。通过对常用域名系统(dns)、超文本传输协议(http)和超文本传输协议安全(https)隧道的实验,验证了该方法的有效性。实验结果表明,本文提出的方法比现有的方法更通用、更有效。

Fusing and Mining Opinions for Reputation Generation
互联网提供了一个方便的平台,人们可以自由地分享他们对任何实体的意见。用自然语言表达的观点带有人类的主观态度和偏好。它们代表了实体的公共视角,从而以某种方式影响用户的决策和行为。因此,意见被认为是产生声誉的有用和有价值的信息,融合和挖掘意见为提取信任和声誉信息以及跟踪公众观点提供了一种很有前途的方法。然而,我们仍然面临一些问题。
首先,现有的声誉生成研究很少是基于观点融合和挖掘的。第二,以往研究忽视的一个重要问题是意见之间的关联程度。第三,目前还缺乏一种全面的信誉可视化方法来有效地辅助用户决策。第四,网上购物信誉管理系统的一个严重问题,产生了一个叫“全好信誉”的问题。如此强烈的正面偏见影响了买家做出明智的决定。
为了克服上述问题,我们提出了一种基于意见融合和挖掘的声誉生成方法。在我们的方法中,意见被过滤以消除不相关的意见,然后被组合成若干融合的主要意见集,其中包含具有相似或相同态度或偏好的意见。通过合并合并意见所附的评级,我们将实体的声誉标准化。同时,可以基于意见之间的关系产生各种类型的建议。为了给用户提供足够的信誉信息,我们还提出了一种新的信誉可视化方法。它显示了意见融合和挖掘结果的细节,如标准化的声誉值、带有人气的主要意见和其他统计数据。通过对几家流行的中英文商业网站的大量真实数据进行分析,实验结果证明了该方法的通用性和准确性,特别是对声誉生成的意见过滤的有效性。一个小规模的真实用户研究进一步量化了用户对所开发的信誉可视化方法的接受程度。在续篇中,这意味着所提出的方法可以应用于实践中产生声誉。

conclusion
效率和准确性是数据采集和处理的关键要求。以上下文感知的方式收集和处理尽可能少的数据,同时获得尽可能准确的安全检测结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值