1204论文速读

1、Deep reinforcement learning based Evasion Generative Adversarial Network for botnet detection (基于深度强化学习的逃避生成对抗网络用于检测僵尸网络* )

全文总结:本文介绍了一种基于深度强化学习和生成对抗网络(GAN)的新型模型——RELEVAGAN,用于检测僵尸网络攻击。传统的机器学习分类器容易受到攻击者的攻击,而使用GAN生成样本进行训练可以提高分类器的鲁棒性。但是,这些合成样本可能不遵循原始输入样本的语义。因此,作者提出了一个DRL-GAN模型,通过DRL攻击GAN的判别器来探索语义感知的样本,并同时增强其检测能力。在训练过程中,DRL代理攻击判别器并调整权重以学习精心设计的扰动。RELEVAGAN不需要对ML分类器进行对抗训练,因为它本身就是一个语义感知的僵尸网络检测模型。实验结果表明,该模型比其他方法具有更好的性能和鲁棒性。

1. 文章研究背景和要解决的问题挑战

机器学习的恶意软件检测系统面临着数据不平衡和对抗攻击等问题。其中,对抗攻击是指通过修改输入样本来欺骗机器学习模型的行为。为了应对这些问题,研究人员提出了一种基于深度强化学习的逃避生成对抗网络(RELEVAGAN)模型,旨在提高机器学习模型对对抗攻击的鲁棒性,并在低数据情况下生成具有语义保持功能的样本。该模型利用深度强化学习技术训练一个代理来攻击生成对抗网络中的判别器,从而使其更好地适应对抗攻击并提高其性能。该模型的名称“RELEVAGAN”代表了“减轻GAN”的含义,因为它利用深度强化学习技术帮助GAN更有效地探索语义受限的样本。

2. 具体实现

1. 生成对抗网络(GAN)基础

GAN 包含两个神经网络:生成器 G G G 和判别器 D D D。生成器的目标是生成逼真的数据,而判别器的目标是区分真实数据和生成的数据。

  • GAN的目标函数
    min ⁡ G max ⁡ D V ( D , G ) = E x ∼ p d a t a ( x ) [ log ⁡ D ( x ) ] + E z ∼ p z ( z ) [ log ⁡ ( 1 − D ( G ( z ) ) ) ] \min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))] GminDmaxV(D,G)=Expdata(x)[logD(x)]+Ezpz(z)[log(1D(G(z)))]
    其中, E \mathbb{E} E 表示期望值, x x x 是真实数据样本, z z z 是从噪声分布中采样的噪声数据, p d a t a p_{data} pdata p z p_z pz 分别是真实数据和噪声的概率分布。
2. 深度强化学习(DRL)基础

DRL 模型包括一个代理和一个环境,代理通过与环境的交互来学习策略,以最大化累积奖励。

  • Q值函数
    Q π ( s t , a t ) = E s t + 1 , a t + 1 , … [ R t ∣ s t , a t ] Q^{\pi}(s_t, a_t) = \mathbb{E}_{s_{t+1}, a_{t+1}, \ldots}[R_t | s_t, a_t] Qπ(st,at)=Est+1,at+1,[Rtst,at]
    其中, s t s_t st 是在时间步 t t t 的状态, a t a_t at 是代理在状态 s t s_t st 下选择的行动, R t R_t Rt 是在状态 s t s_t st 下执行行动 a t a_t at 后获得的即时奖励。
3. RELEVAGAN 架构

RELEVAGAN 通过引入DRL代理来攻击GAN的判别器,从而生成语义感知的逃避样本。

  • DRL代理的目标
    Maximize  ∑ i γ i R t + i \text{Maximize } \sum_i \gamma^i R_{t+i} Maximize iγiRt+i
    其中, γ \gamma γ 是折扣因子,用于平衡即时奖励和未来奖励。
4. RELEVAGAN 训练过程

RELEVAGAN 的训练过程包括以下步骤:

  • 步骤 1:在真实数据上训练判别器 D D D
  • 步骤 2:在生成的数据上训练判别器 D D D
  • 步骤 3:执行DRL代理以生成逃避样本。
  • 步骤 4:在DRL代理生成的逃避样本上训练判别器 D D D
  • 步骤 5:训练生成器 G G G
5. RELEVAGAN 的关键公式
  • 生成器 G G G 的损失函数
    J G ( G ) = E z [ log ⁡ ( D ( G ( z ) ) ) ] J_G(G) = \mathbb{E}_z[\log(D(G(z)))] JG(G)=Ez[log(D(G(z)))]
    生成器 G G G 试图最大化 D D D 对其生成样本的分类概率。

  • 判别器 D D D 的损失函数
    D Loss = − 1 N ∑ i = 1 N [ y x i real log ⁡ P ( S = real ∣ X real ) + ( 1 − y x i real ) ( 1 − log ⁡ P ( S = real ∣ X real ) ) ] D_{\text{Loss}} = -\frac{1}{N} \sum_{i=1}^N [y_{x_i}^{\text{real}} \log P(S = \text{real} | X_{\text{real}}) + (1 - y_{x_i}^{\text{real}})(1 - \log P(S = \text{real} | X_{\text{real}}))] DLoss=N1i=1N[yxireallogP(S=realXreal)+(1yxireal)(1logP(S=realXreal))]
    判别器 D D D 试图区分真实样本和生成样本。

通过这种方式,RELEVAGAN 利用DRL代理来探索和生成在语义限制内的逃避样本,同时训练GAN模型以提高对逃避攻击的检测能力。这种方法不仅提高了检测器的鲁棒性,还解决了数据不平衡和逃避意识的问题。

在这里插入图片描述

3. 实验设计

本文介绍了作者在研究中使用的三个不同的botnet数据集(ISCX-2014、CIC-2017和CIC-2018),并使用了加拿大网络安全研究所提供的CICFlowMeter-v4工具进行了特征提取。此外,作者还使用了OpenAI Gym和gym-malware工具包来实现DRL攻击者,并使用Keras-rl和Keras-rl2库选择了DQN代理。在实验过程中,作者采用了与EVAGAN相同的特征集和数据预处理方法。作者通过比较RELEVAGAN的性能和EVAGAN的性能来评估其效果,并使用准确率作为评估指标。实验结果表明,RELEVAGAN相对于EVAGAN具有更好的性能,能够更有效地检测到恶意软件样本。

4. 总结

值得精读 架构和损失函数的设计

该论文提出了一种基于强化学习的对抗样本生成模型,用于提高机器学习模型的抗攻击能力。该模型使用了DRL来生成对抗样本,并将其与GAN结合使用,从而提高了生成样本的质量和效率。此外,该模型还具有以下优点:

  • 算法简单易懂:该算法基于强化学习,易于理解和实现。
  • 可扩展性强:该算法可以应用于各种类型的机器学习模型,包括图像分类、语音识别等。
  • 效果显著:实验结果表明,该算法能够有效地提高机器学习模型的抗攻击能力。

5. 局限性

该论文的研究成果为机器学习模型的抗攻击能力提供了新的思路和方法。未来可以从以下几个方面进一步研究和发展:

  • 探索更多的应用场景:目前该算法主要应用于图像分类等领域,未来可以探索更多的应用场景,如自然语言处理、推荐系统等。
  • 提高生成样本的质量:虽然该算法已经取得了不错的效果,但仍然存在一些问题,如生成样本的质量不够高。因此,未来可以通过改进算法或增加训练数据等方式来提高生成样本的质量。
  • 结合其他技术:除了DRL和GAN之外,还有许多其他的技术可以用于生成对抗样本,如遗传算法、模拟退火等。未来可以考虑将这些技术结合起来,以获得更好的效果。

2、Class imbalance and concept drift invariant online botnet threat detection framework for heterogeneous IoT edge (针对异构物联网边缘的类不平衡和概念漂移不变在线僵尸网络威胁检测框架)

全文总结:本文介绍了一种针对异构物联网边缘网络中零日攻击的在线检测框架ONIDS。该框架采用了Beta分布推断技术和极端学习机(ELM)模型进行实时数据处理和分类,以适应网络流量的变化和不同设备之间的差异性。实验结果表明,ONIDS在处理大型和小型数据集时都表现出良好的性能,并且相对于其他方法具有更高的准确性和效率。该研究为解决异构物联网边缘网络中的安全问题提供了新的思路和技术手段。

1. 文章研究背景和要解决的问题挑战

这篇文章的研究背景是针对异构物联网边缘(HetIoT)中的短时零日攻击问题。由于异构设备特性和动态操作环境的存在,传统的安全防护手段难以应对这些攻击。因此,需要一种能够定位威胁空间并实时更新规则的学习技术来解决问题。同时,由于缺乏标签知识库和高比例的类别不平衡,设计EoT环境下的入侵检测系统变得困难。为此,该文章提出了ONIDS在线入侵检测技术,包括基于贝塔分布的流量行为近似技术和资源受限设备特定网络流量的在线学习算法ELMO。

2. 具体实现

本文提出了一个名为ONIDS(Online Network Intrusion Detection System)的在线网络入侵检测框架,旨在解决异构物联网(HetIoT)边缘环境中的类不平衡(class imbalance)和概念漂移(concept drift)问题。该框架包括两个主要部分:基于Beta分布的流量推断技术和名为ELMO(Extreme Learning Machine based on Beta approximation)的在线检测技术。以下是这两个部分的关键公式和方法论的详细说明:

1. 基于Beta分布的流量推断技术

关键公式:

  • Beta分布参数估计:
    μ = b 11 b 11 + b 12 , σ 2 = b 11 b 12 ( b 11 + b 12 ) 2 ( b 11 + b 12 + 1 ) \mu = \frac{b11}{b11 + b12}, \quad \sigma^2 = \frac{b11 b12}{(b11 + b12)^2(b11 + b12 + 1)} μ=b11+b12b11,σ2=(b11+b12)2(b11+b12+1)b11b12
    其中, b 11 b11 b11 b 12 b12 b12 是Beta分布的参数。

  • Beta分布近似(Beta Approximation):
    Beta ( d ; λ , b 11 , b 12 ) = 1 B ( b 11 , b 12 ) λ b 11 − 1 ( 1 − λ ) b 12 − 1 \text{Beta}(d; \lambda, b11, b12) = \frac{1}{B(b11, b12)} \lambda^{b11-1}(1 - \lambda)^{b12-1} Beta(d;λ,b11,b12)=B(b11,b12)1λb111(1λ)b121
    其中, B ( b 11 , b 12 ) B(b11, b12) B(b11,b12) 是Beta函数。

方法论:
这一部分提出了一种基于Beta分布的方法来近似HetIoT网络流量行为。Beta分布被用来处理类不平衡问题,因为它不像正态分布那样对多数类样本有偏见。该方法首先通过计算流量特征的条件概率来获得先验分布,然后通过Gibbs采样迭代近似后验分布。这种方法允许模型在面对动态类不平衡和概念漂移时,能够更准确地捕捉网络流量的行为。

2. ELMO在线检测技术

关键公式:

  • ELMO算法输出权重计算:
    β corr = ( H T H ) − 1 ( H T y ) \beta_{\text{corr}} = (H^T H)^{-1}(H^T y) βcorr=(HTH)1(HTy)
    其中, H H H 是输入权重和特征的矩阵, y y y 是标签向量。

  • ELMO预测模型:
    P ( ELMO ( d t ; λ , b 11 , b 12 ) = 1 ∣ C i ) → y ( k θ , C i ) P(\text{ELMO}(d_t; \lambda, b11, b12) = 1 | C_i) \rightarrow y(k\theta, C_i) P(ELMO(dt;λ,b11,b12)=1∣Ci)y(kθ,Ci)
    其中, d t d_t dt 是网络流量实例, C i C_i Ci 是类别标签, k θ k\theta kθ 是模型参数。

方法论:
ELMO算法是基于ELM(Extreme Learning Machine)的单层前馈神经网络(SLFN),它通过一次性计算相关性矩阵来学习输入特征的激活潜力,避免了基于梯度的反向传播,从而适合于在线和离线NID场景。ELMO算法结合了Beta流量推断技术,以实现对不同大小和时空间隔的数据样本的改进预测结果,展现出对类不平衡和概念漂移的不变性。

本文的方法论通过结合Beta分布的流量推断和ELM的在线检测技术,提供了一种适用于HetIoT环境的在线网络入侵检测框架,能够有效地处理类不平衡和概念漂移问题,同时保持对网络流量的实时监控和检测能力。

在这里插入图片描述

3. 实验设计

本文介绍了作者对当前物联网威胁情景的实验研究,并与现有工作进行了比较分析。具体来说,作者进行了四个方面的实验:

第一方面是对Beta分布和Normal分布的比较实验,旨在验证Beta分布对于处理不平衡数据集的优势。实验结果表明,在多个数据集上,Beta分布相比于Normal分布具有更好的性能表现。

第二方面是对Beta分布流量推断能力的实验,通过将Beta分布应用于Bot-IoT和NSL-KDD两个数据集中,证明了Beta分布可以有效地解决概念漂移问题,并且在处理不平衡数据集时也表现出色。

第三方面是关于攻击元学习的实验,通过使用攻击元学习算法来提高网络防御的能力。实验结果表明,攻击元学习可以显著提高网络防御的效果。

最后一个方面是对多步攻击的实验,通过对多步攻击进行模拟和分析,证明了作者提出的方案可以在一定程度上防范多步攻击。

在这里插入图片描述

4. 总结

值得精读 beta分布

  • 该论文提出了一种适用于资源受限的EoT网络的ONIDS技术,能够适应在线和离线NID,并且对于数据类不平衡具有抵抗能力。
  • 论文使用了beta分布作为流量推理方法,强调了零日攻击的重要性,并通过Gibbs采样实现了简单的先验分布到更准确的后验分布的估计。
  • 论文还提出了一个基于beta近似算法的轻量级分类器ELMO,可以用于在线和离线威胁预测。

5. 局限性

  • 在未来的研究中,可以进一步探索如何将ONIDS技术应用于更大规模的网络中,并且考虑如何将其与其他安全技术结合使用,以提高整个系统的安全性。
  • 可以继续研究如何优化ELMO分类器的性能,以便在实际应用中获得更好的效果。
  • 还可以考虑如何利用深度学习等新技术来改进ONIDS技术,以应对更加复杂的网络威胁。

3、Integrated Cyber-Physical Resiliency for Power Grids Under IoT-Enabled Dynamic Botnet Attacks (物联网驱动的动态 Botnet 攻击下的电力网络集成网络安全 )

全文总结:本文旨在提高电网系统对物联网(IoT)攻击的抵御能力。随着IoT设备的广泛采用,电力系统的攻击面也不断扩大。攻击者可以非法控制大量这些设备,并利用它们来破坏物理电网操作,这就是所谓的IoT僵尸网络攻击。为了解决这个问题,作者使用传染病模型理解动态僵尸网络形成的过程,以评估电网的网络安全漏洞。攻击者的目的是利用这个漏洞实现成功的物理攻击,而系统运营商的目标是通过减轻网络安全风险来确保电网正常运行。为此,作者开发了一个跨层博弈论框架来进行战略决策,增强电网的网络安全和物理安全。在IEEE-39节点系统上进行了多个案例研究,验证了该方法的有效性。

1. 文章研究背景和要解决的问题挑战

这篇文章的研究背景是随着物联网技术的发展,越来越多的能源设备被连接到互联网上,这不仅提高了生活质量,同时也增加了电力系统的攻击面。攻击者可以利用这些设备组成 IoT botnet 进行攻击,对电力系统造成损害。因此,该文章旨在提高电力系统的网络安全性和物理抗性,应对这种攻击。具体来说,文章使用传染病模型来了解 botnet 的形成过程,并评估电网的网络安全漏洞。同时,开发了一个跨层博弈论框架来进行战略决策,增强网络安全和物理抗性。在 IEEE-39 节点系统上的多个案例研究表明了这种方法的有效性。

2. 具体实现

本文提出了一个综合的网络物理弹性框架,用于提高电网在物联网(IoT)支持的动态僵尸网络攻击下的弹性。该方法涉及以下几个关键步骤和公式:

1. 流行病模型(Epidemic Model)

文章使用了一个基于度的流行病模型(SIS模型)来量化大规模IoT设备网络中的恶意软件传播动态。这个模型帮助评估电网在僵尸网络攻击下的网络层面脆弱性。

  • 公式(10):描述了IoT设备被攻击者妥协的动态过程。
    d I k ( t ) d t = − γ I k ( t ) + ζ k [ 1 − I k ( t ) ] η ^ ( t ) \frac{dI_k(t)}{dt} = -\gamma I_k(t) + \zeta_k[1 - I_k(t)]\hat{\eta}(t) dtdIk(t)=γIk(t)+ζk[1Ik(t)]η^(t)
    其中, I k ( t ) I_k(t) Ik(t) 是时间 t t t 时被攻击者妥协的IoT设备密度, γ \gamma γ 是恢复率, ζ k \zeta_k ζk 是传播率, η ^ ( t ) \hat{\eta}(t) η^(t) 是给定链接连接到被感染IoT设备的概率。

  • 公式(11):计算 η ^ ( t ) \hat{\eta}(t) η^(t)
    η ^ ( t ) = ∑ k ∈ K k p ( k ) I k ( t ) ⟨ k ⟩ \hat{\eta}(t) = \frac{\sum_{k \in K} k p(k) I_k(t)}{\langle k \rangle} η^(t)=kkKkp(k)Ik(t)
    其中, p ( k ) p(k) p(k) 是节点度的概率分布, ⟨ k ⟩ \langle k \rangle k 是IoT设备的平均连接度。

2. 系统性风险评估(Systemic Risk Assessment)
  • 公式(12):量化电网由于IoT设备集成而面临的系统性风险。
    R ( t ) = I ( t ) ⋅ N d ⋅ W d R(t) = I(t) \cdot N_d \cdot W_d R(t)=I(t)NdWd
    其中, R ( t ) R(t) R(t) 是系统性风险, I ( t ) I(t) I(t) 是被僵尸网络攻击妥协的IoT设备百分比, N d N_d Nd 是IoT控制的能源设备总数, W d W_d Wd 是它们的平均功率使用。
3. 网络弹性设计(Cyber-Resilient Design)

文章通过游戏理论框架来设计网络防御策略,以增强电网的网络弹性。

  • 公式(22):定义了网络防御博弈,其中 u d u_d ud 是防御努力, u a u_a ua 是攻击努力。
    min ⁡ u d ∈ U d L d ( u d , u a ) : = C d ( u d ) + I ˉ ( u d , u a ) \min_{u_d \in U_d} L_d(u_d, u_a) := C_d(u_d) + \bar{I}(u_d, u_a) udUdminLd(ud,ua):=Cd(ud)+Iˉ(ud,ua)
    max ⁡ u a ∈ U a L a ( u d , u a ) : = − C a ( u a ) + I ˉ ( u d , u a ) \max_{u_a \in U_a} L_a(u_d, u_a) := -C_a(u_a) + \bar{I}(u_d, u_a) uaUamaxLa(ud,ua):=Ca(ua)+Iˉ(ud,ua)
    其中, C d C_d Cd C a C_a Ca 分别是防御和攻击的成本函数, I ˉ \bar{I} Iˉ 是稳态下的网络风险。
4. 物理弹性动态博弈(Physical Resilience Dynamic Game)
  • 公式(24):定义了物理层的最小最大控制器,用于对抗恶意负载操纵。
    min ⁡ { P d } max ⁡ { P a } J { P d } , { P a } : = ∥ x T ∥ 2 Q f + ∑ t = 0 T − 1 ( ∥ x t ∥ 2 Q + ∥ P d t ∥ 2 R d − ∥ P a t ∥ 2 R a ) \min_{\{P_d\}} \max_{\{P_a\}} J_{\{P_d\}, \{P_a\}} := \|x_T\|^2 Q_f + \sum_{t=0}^{T-1} (\|x_t\|^2 Q + \|P_{d t}\|^2 R_d - \|P_{a t}\|^2 R_a) {Pd}min{Pa}maxJ{Pd},{Pa}:=xT2Qf+t=0T1(xt2Q+Pdt2RdPat2Ra)
    s . t . x t + 1 = A ~ x t + B ~ d P d t + B ~ a P a t + c ~ , P a t , i ≤ R ˉ ⋅ ρ i s.t. \quad x_{t+1} = \tilde{A}x_t + \tilde{B}_d P_{d t} + \tilde{B}_a P_{a t} + \tilde{c}, \quad P_{a t,i} \leq \bar{R} \cdot \rho_i s.t.xt+1=A~xt+B~dPdt+B~aPat+c~,Pat,iRˉρi
    其中, J J J 是要最小化的目标函数, x t x_t xt 是系统状态, P d t P_{d t} Pdt P a t P_{a t} Pat 分别是防御和攻击的控制输入, Q , Q f , R d , R a Q, Q_f, R_d, R_a Q,Qf,Rd,Ra 是状态和控制成本矩阵。

通过这些关键公式和方法,文章提出了一个综合的框架来评估和提高电网在面对IoT支持的动态僵尸网络攻击时的网络物理弹性。

在这里插入图片描述

3. 实验设计

  1. 网络风险评估:通过模拟不同的攻击强度ζ,评估网络风险I(t)的变化,并与理论模型进行比较。

  2. 网络防御游戏评估:设置不同的防御努力ud和攻击努力ua,评估网络风险¯I(ud, ua),并寻找网络防御游戏的纳什均衡(NE)。

  3. 物理影响评估:通过模拟IoT僵尸网络攻击,评估对电网稳定性的影响,并测试预设计的PI控制器在攻击下的表现。

  4. 动态防御策略:实施动态僵尸网络攻击,展示所提出方法在连续攻击下的整体和敏捷的网络物理弹性。

4. 总结

值得精读 传染病模型 和攻击传播模型

本文针对物联网控制下的高功率能源设备恶意攻击问题,提出了一种基于传染病模型的跨层游戏理论防御机制,并通过数值仿真验证了其有效性。该研究具有以下优点:

  • 研究问题具有实际意义:随着物联网技术的发展,越来越多的智能设备被接入到电力系统中,使得电力系统的安全性面临更大的挑战。因此,研究如何应对物联网控制下的恶意攻击具有重要的现实意义。
  • 基于传染病模型的研究方法:本文将传染病模型引入到网络安全领域,通过对攻击过程进行建模,更好地描述了攻击者的行为特征,从而提高了研究结果的可信度。
  • 跨层防御机制的设计:本文提出的跨层防御机制可以同时考虑物理层和网络层的安全问题,从而更加全面地保护电力系统的安全。

5. 局限性

本文的研究成果为解决物联网控制下的恶意攻击问题提供了一个新的思路,但还存在一些不足之处,例如只考虑了攻击者的静态行为,没有考虑到攻击者的动态策略选择等。因此,在未来的研究中,可以从以下几个方面进一步深入探讨:

  • 探索更准确的攻击传播模型,以更好地描述攻击者的行为特征;
  • 设计更为完善的跨层防御机制,实现对物理层和网络层的全方位保护;
  • 对攻击者的动态策略选择进行建模,提高防御机制的鲁棒性;
  • 将其他领域的研究成果应用到网络安全领域,探索更多的解决方案。

4、BotDetector: a system for identifying DGA-based botnet with CNN-LSTM (BotDetector:一种基于CNN-LSTM的DGA僵尸网络识别系统 )

全文总结:本文介绍了一种名为BotDetector的系统,用于识别基于DGA(Domain Generation Algorithm)的僵尸网络。传统机器学习方法通常通过分析合法域名和DGA生成的域名之间的语言差异来进行检测,但难以识别使用单词列表或伪随机生成的域名。因此,本文提出了一个高效的CNN-LSTM检测模型,仅使用一组简单的字符特征进行计算。实验结果表明,与现有的最佳替代方案相比,该算法在准确性和F1分数上提高了1.6%,并减少了9.4%的计算时间。此外,该工作可以识别使用单词列表或伪随机生成的域名的僵尸网络的隐蔽通信通道,无需反向工程的帮助。

1. 文章研究背景和要解决的问题挑战

这篇文章的研究背景是针对现今网络安全中面临的一个主要威胁——botnets(僵尸网络),它们通过命令和控制通道远程执行恶意操作。其中,DGA(Domain Generation Algorithm)基僵尸网络使用域名生成算法生成大量域名来进行通信。然而,传统机器学习方法难以准确地识别基于词典或伪随机生成的DGA域名。因此,该篇文章提出了一种高效的基于CNN-LSTM的检测模型(BotDetector),它只使用一组简单且易于计算的字符特征来识别DGA基僵尸网络。文章旨在解决如何准确识别DGA僵尸网络中的隐含模式,并提高检测性能的问题。

2. 具体实现

本文提出了一个基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的检测模型(BotDetector),用于识别基于域名生成算法(DGA)的僵尸网络。该模型主要通过分析域名的语言学特征来区分正常域名和DGA生成的域名。以下是文章中提到的关键公式和方法的详细说明:

1. 特征提取

文章中提取了37个特征来衡量域名的随机性,这些特征包括域名长度、字符熵值、连续元音/辅音的最大数量、唯一字符比率等。以下是一些关键特征的计算公式:

  • 域名熵值(E(2L D)):用于衡量域名的随机性。
    E ( 2 L D ) = − 1 l e n ( 2 L D ) ∑ i = 0 l e n ( 2 L D ) − 1 p r o i ⋅ l o g 2 ( p r o i ) E(2L D) = -\frac{1}{len(2L D)} \sum_{i=0}^{len(2L D)-1} pro_i \cdot log_2(pro_i) E(2LD)=len(2LD)1i=0len(2LD)1proilog2(proi)
    其中, l e n ( 2 L D ) len(2L D) len(2LD) 表示第二级域名(SLD)的长度, p r o i pro_i proi 是SLD中各个字符出现的概率。

  • 有意义的字符比率(Pr):用于识别DGA域名中可能包含的有意义的字符。
    P r = max ⁡ ( ∑ i = 1 n ∣ w i ∣ l e n ( n L D ) ) Pr = \max \left( \frac{\sum_{i=1}^{n} |w_i|}{len(nL D)} \right) Pr=max(len(nLD)i=1nwi)
    其中, ∣ w i ∣ |w_i| wi 表示在新顶级域名(nLD)中有意义的字符数量,且 ∣ w i ∣ ≥ 3 |w_i| \geq 3 wi3

2. 特征选择
  • 主成分分析(PCA):用于从37个特征中选择最重要的特征,以减少计算开销并提高分类精度。
    • 中心化所有样本: x ( i ) = x ( i ) − 1 m ∑ j = 1 m x ( j ) x(i) = x(i) - \frac{1}{m} \sum_{j=1}^{m} x(j) x(i)=x(i)m1j=1mx(j)
    • 确定样本的协方差矩阵。
    • 对矩阵进行特征值分解。
    • 取对应于最大的n个特征值的的特征向量,形成特征向量矩阵。
    • 将每个样本 X i X_i Xi 转换为新样本 z ( ) = W T ⋅ x ( i ) z() = WT \cdot x(i) z()=WTx(i)
3. CNN-LSTM分类网络
  • CNN层:使用不同大小的卷积核来提取特征向量的局部信息。
  • LSTM层:用于学习特征向量的全局信息,具有多个门控单元和记忆单元,能够处理长序列数据。
  • BatchNormalization层:用于防止梯度消失或爆炸,加速网络收敛。
  • 全连接层:进一步抽象特征,实现线性分割。
4. 损失函数
  • 二元交叉熵函数
    L ( ω ) = − 1 m ∑ i = 1 m ( y i ⋅ l o g ( h ω ( x i ) ) + ( 1 − y i ) ⋅ l o g ( 1 − h ω ( x i ) ) ) L(\omega) = -\frac{1}{m} \sum_{i=1}^{m} \left( y_i \cdot log(h_\omega(x_i)) + (1 - y_i) \cdot log(1 - h_\omega(x_i)) \right) L(ω)=m1i=1m(yilog(hω(xi))+(1yi)log(1hω(xi)))
    其中, ω \omega ω 表示模型参数, m m m 表示小批量数据的大小, ( x i , y i ) (x_i, y_i) (xi,yi) 表示训练数据的输入和标签, h ω h_\omega hω 表示模型函数。

通过这些方法和公式,BotDetector能够有效地从DNS流量中识别出基于DGA的僵尸网络域名,同时保持高检测精度和较低的计算时间。

3. 实验设计

本文主要介绍了作者使用DNS流量数据和机器学习算法来检测和分类恶意域名的方法,并进行了多组对比实验以验证其效果。

首先,作者使用了十个不同的机器学习算法对训练样本进行分类,并比较它们的性能。结果显示,CNN-LSTM模型具有最佳的准确率,比其他传统机器学习算法表现更好。此外,作者还使用ROC曲线和AUC值分析了不同算法的分类性能,结果表明CNN-LSTM模型具有最好的检测性能。

其次,作者使用了另一个数据集对CNN-LSTM模型进行了测试,结果也证明了该模型在不同数据集上的良好泛化能力。

最后,作者将CNN-LSTM模型应用于实际DNS流量数据中,并成功识别出了大量的可疑域名。通过与已知的Fast-Flux特质和其他相关证据相结合,作者进一步证实了这些域名可能是DGA家族的C&C服务器。

与其他类似的工作相比,作者的研究采用了更全面的特征提取方法,并且不依赖于外部信息源,如WHOIS或DNS响应等。同时,作者还使用了PCA技术优化特征,提高了检测效率。实验结果表明,本文提出的方法具有更好的检测能力和更高的检测效率,可以作为野外检测的一种有效补充手段。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 总结

值得精读 特征提取
本文提出了一种有效的DGA-based botnet检测系统,并使用了CNN-LSTM模型来解决两个问题:确定是否为DGA域名以及识别其所属的DGA家族。实验结果表明,该系统在准确性和效率方面都优于其他类似的方法。此外,该系统具有自动化和可扩展性的特点,可以应用于实际网络环境中。

本文的主要创新点在于提出了一个基于PCA算法的特征提取方法,能够将原始数据转换成更少但更有意义的分类特征。同时,作者还采用了CNN-LSTM模型来计算隐含关系并提高准确性。这些创新点使得该系统能够在准确性和效率方面表现出色。

5. 局限性

未来的研究方向包括进一步优化特征提取方法以提高准确性、探索新的机器学习算法以提高性能、以及将该系统与其他网络安全技术相结合以构建更加完整的网络安全解决方案等。


5、BotDefender: A Collaborative Defense Framework Against Botnet Attacks using Network Traffic Analysis and Machine Learning (BotDefender:一种基于网络流量分析和机器学习的协作防御框架,用于对抗僵尸网络攻击 )

全文总结:这篇论文介绍了一个名为BotDefender的协作防御框架,用于保护网络免受botnet攻击。由于攻击者使用了数百万个不同的互联网设备,并且总是拥有额外的资源来增加攻击强度,因此传统的反制措施无法处理由bot军队产生的大量网络流量。因此,需要一个强大的botnet防御系统,能够处理大量的网络流量并以高准确性检测botnet攻击。该文提出的BotDefender框架结合了一种新的网络流量分析器和机器学习技术,以防止botnet攻击。该网络流量分析器进行深入的流量分析,以检测bot并过滤掉所有来自已识别bot的流量。这显著减少了网络流量,通过过滤掉大量来自bot的流量并将大大减少的流量转移到机器学习模型进行进一步分析。该机器学习模型使用一种新颖的特征选择技术和扩展的数据集构建技术以及基于堆叠集成的机器学习模型,以检测bot。实验结果表明,所提出的机器学习模型具有稳定的性能。最后,为了评估BotDefender的性能,设计并开发了一个现场botnet攻击策略。在实际测试中,BotDefender过滤掉了99.8%的botnet流量,并实现了100%的整体准确率。

1. 文章研究背景和要解决的问题挑战

传统的方法往往无法及时、准确地检测到botnet攻击,因为它们依赖于已知的攻击特征或签名。而机器学习可以通过学习大量的合法设备信息,从而更好地识别异常行为,从而实现更快速、准确的检测。此外,该方法还可以通过引入蜜罐等手段来分散攻击者的注意力,减轻真实服务器的压力。

2. 具体实现

本文提出了一个名为BotDefender的协作防御框架,用于检测和防御僵尸网络攻击。该框架结合了网络流量分析和机器学习技术。

1. 网络流量分析器(Network Traffic Analyzer)

网络流量分析器负责监控所有传入的网络流量,并基于定义的规则检测僵尸程序(bots)。它通过过滤掉来自已识别僵尸程序的大量流量,显著减少网络流量,并把剩余流量传递给机器学习模型进行进一步分析。

关键公式:
avg_packet = time_diff packet_count \text{avg\_packet} = \frac{\text{time\_diff}}{\text{packet\_count}} avg_packet=packet_counttime_diff

  • time_diff:从同一源IP收到的连续两个包的时间差。
  • packet_count:从同一源IP收到的包的总数。

如果一个源的平均包数(avg_packet)小于3,并且包的总数大于10,则认为该源是良性的,否则被认为是僵尸程序流量。

2. 机器学习模型(Machine Learning Model)

机器学习模型基于堆叠集成学习(stacking ensemble-based machine learning)来检测僵尸网络攻击。模型使用以下关键技术:

2.1 人类学习启发的扩展数据集构建技术(Human Learning-Inspired Extended Dataset Construction Technique)

该技术通过多次包含被错误分类的记录来构建扩展数据集,模仿人类学习困难事物时的重复学习行为。

2.2 特征选择技术(Feature Selection Technique)

特征选择技术使用四种不同的方法对特征进行排名:互信息(mutual_info_classif)、最小绝对收缩和选择算子(LASSO)、特征重要性(feature_importances_)和相关性(correlation)。然后,它迭代地选择排名最高的特性,直到找到最优的特征子集。

在每一步中,如果当前特征集(FS)的分类准确度高于之前的最佳准确度(MaxScore),则更新RFS。

2.3 堆叠集成技术(Stacking Ensemble-Based Technique)

堆叠集成技术包括两个层次:基础学习器(level-0)和元学习器(level-1)。基础学习器执行预测,元学习器尝试结合基础学习器的预测以获得最佳性能。

3. 维护僵尸程序列表(Maintaining the Bot List)

每当网络流量分析器或机器学习模型检测到僵尸程序时,将僵尸程序的源地址、到达时间、总包数和平均包数信息添加到僵尸程序列表中。

关键公式:
avg_packet = cp[’etime’] - Bots[cp[’src’]][’stime’] B o t s [ c p [ ′ s r c ′ ] ] [ ′ p c o u n t ′ ] \text{avg\_packet} = \frac{\text{cp['etime'] - Bots[cp['src']]['stime']}}{Bots[cp['src']]['pcount']} avg_packet=Bots[cp[src]][pcount]cp[’etime’] - Bots[cp[’src’]][’stime’]

  • cp[‘src’]:当前包的源IP。
  • cp[‘etime’]:当前包的到达时间。
  • Bots:BotDefender识别的僵尸程序列表。
  • Bots[cp[‘src’]][‘stime’]:僵尸程序列表中来自同一源的第一个包的时间。
  • Bots[cp[‘src’]][‘pcount’]:僵尸程序列表中来自同一源的包的总数。

如果一个源的平均包数小于3,则从僵尸程序列表中移除该源的所有记录。

通过这些方法,BotDefender能够有效地检测和防御僵尸网络攻击,同时减少对计算资源的需求。

3. 实验设计

本文介绍了BotDefender系统,该系统包括两个部分:网络流量分析器和机器学习模型。在网络流量分析器方面,作者使用了CICIDS2017、CICIDS2018、UNSW BotIoT2018和UNSW NB15等四个数据集进行了实验,并采用了准确率、召回率、F1分数等指标对结果进行了评估。实验结果显示,网络流量分析器能够有效地过滤掉大量的网络流量,从而降低机器学习模型的计算负担。在机器学习模型方面,作者使用了多个数据集进行了实验,并采用了准确率、召回率、F1分数等指标对结果进行了评估。实验结果显示,机器学习模型能够有效地识别和分类网络流量中的异常行为,从而提高检测准确率和效率。最后,作者还对BotDefender系统的部署策略和挑战进行了讨论,并提出了未来的研究方向。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 总结

这篇文章介绍了一个名为BotDefender的协作防御框架,它利用网络流量分析和机器学习技术来防止僵尸网络攻击。该框架包括一个提出的网络流量分析器和一个基于机器学习模型的分类器。实验结果表明,BotDefender可以过滤掉99.8%的僵尸网络流量,并且在检测僵尸网络攻击方面具有100%的准确性。该研究对于提高网络安全性和保护组织免受僵尸网络攻击具有重要意义。

5. 局限性

尽管BotDefender框架在检测和防御僵尸网络攻击方面展现出了显著的效果,但它仍存在一些局限性。这些局限性包括在资源受限的设备上部署的挑战,如IoT设备,可能需要采用特殊的技术来适应这些环境;BotDefender在处理大规模网络流量时的实时性能和可扩展性尚未得到充分验证,且对未知攻击(零日攻击)的检测能力可能有限。实验环境与现实世界网络环境的差异也可能影响模型的实际效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值