AGDB: A Dictionary-based Malicious Domain Detection Method based on Representation Fusion

YZRuin

已于 2024-05-14 10:00:53 修改

阅读量984

点赞数 25

分类专栏： DGA 文章标签：网络安全人工智能深度学习 nlp 安全

于 2024-05-11 15:45:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YZRuin/article/details/138709084

版权

DGA 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于字典的域名检测方法

原文地址：AGDB: A Dictionary-based Malicious Domain Detection Method based on Representation Fusion | IEEE Conference Publication | IEEE Xplore

AGDB算法结构

基于上下文的模型

背景

论文背景:

随着网络设备数量的增加，网络攻击者利用域名生成算法（DGAs）生成恶意域名，为了有效打击这些恶意域名，本研究探索了字典恶意域名生成算法，并提出了一种新的检测方法。

过去方案:

以前的检测方法对字典恶意域名效果不佳，传统的检测方法主要基于分布、机器学习和深度学习技术，但在字典恶意域名检测方面表现不佳。

论文动机:

随着越来越多的僵尸网络开始使用字典恶意域名，如何有效检测这些域名成为网络安全领域的关键问题，本研究旨在解决这一问题。

AGDB算法结构

AGDB剖析

AGDB主要由两部分组成：基于上下文的模型和AGDGraph

基于上下文的模型

对域名进行分词，然后使用模型进行编码得到特征表示，论文使用的模型是BERT-Small。

BERT论文链接：https://arxiv.org/pdf/1810.04805

模型下载地址：https://storage.googleapis.com/bert_models/2020_02_20/uncased_L-4_H-512_A-8.zip

AGDGraph

AGDGraph是在Pereira等人提出的WordGraph上进行改进。因此就得先搞清楚WordGraph是怎么做的。

WordGraph

论文链接：Dictionary Extraction and Detection of Algorithmically Generated Domain Names in Passive DNS Traffic | SpringerLink

这篇论文的详细解读在此就不一一展开，主要关注于它如何构建这个网络图。

首先是按顶级域名划分，对域名集划分为多个域名子集，每个子集具有相同的顶级域名，每个域名子集 $C_i$ 对应了一个图 $G_i$ 。
对于一个图 $G_i$ 的节点是在单词集 $D$ 中至少出现一次的单词，边是在这个域名子集中如果两个单词出现在同一域名中则这两个单词间就有一条边。

**在此单词的准确含义应该是指共同子串，而不是说完整的有含义的一个英文单词

单词集是如何构造的：
- 首先置 $D= \emptyset$
- 对于一个域名集中的两个域名 $c_i, c_j$ ，如果他们的最长共同子串 $l_{i,j}$ 满足 $|l_{i,j} \geq m|$ ，就将 $l_{i,j}$ 添加到单词集中
图 $G_i$ 构建完成后，对于 $G_i$ 的每个连通子图 $G_i^{(j)}$ ，定义了一下特征：

$\textbf{D} _{mean}$ ： $G_i^{(j)}$ 的平均顶点度

$\textbf{D}_{max}$ ： $G_i^{(j)}$ 的最大顶点度

$\textbf{C}$ ： $G_i^{(j)}$ 的基础循环基的基数（个数）

**基础循环基：

出自：https://en.wikipedia.org/wiki/Cycle_basis

$\textbf{C}_V$ ： $\textbf{C}/|V|$ ，其中 $V$ 是 $G_i^{(j)}$ 的顶点集

$\textbf{ASPL}$ ： $G_i^{(j)}$ 的平均最短路径长度

AGDGraph

说回AGDGraph，对于一个域名，有特征 $\textbf{D} _{mean}$ 、 $\textbf{D}_{max}$ 、 $\textbf{C}$ 、 $\textbf{C}_V$ 、 $\textbf{ASPL}$ ，不过是将这个域名所包含的单词所属于的每个连通子图中的特征值的均值作为这个域名的特征值。

在WordGraph中的特征值基础上，AGDGraph还加入了下面几个特征：

$D_{smean}$ ：域名包含的单词中的平均顶点度
$D_{smax}$ ：域名包含的单词中的最大顶点度
$D_{sstd}$ ：域名包含的单词中顶点度的标准差

特征融合

最后便是将两部分的特征进行融合，接全连接层进行分类输出。

实验

数据集

良性样本：Alexa

恶性样本：suppobox、matsnu家族

各抽取100k进行评估

实验结果

疑问

原文实验部分的最后一段提到表三的实验结果是展示了训练集和测试集的比例关系，但原文的表三是四个方法的F1比较，怀疑是作者放错图了。

关注

25
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

YZRuin CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

58万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

354: 积分

120: 粉丝

174: 获赞

6: 评论

164: 收藏

私信

关注

热门文章

分类专栏

最新评论

状态空间对偶 (Mamba-2) 第一部分 - 模型
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
AGDB: A Dictionary-based Malicious Domain Detection Method based on Representation Fusion
CSDN-Ada助手: 恭喜您发布了新的博客文章！标题中提到的“AGDB: A Dictionary-based Malicious Domain Detection Method based on Representation Fusion”听起来非常专业和有趣。我非常期待阅读您的研究成果，并了解更多关于这种基于表示融合的恶意域名检测方法的内容。希望您能继续坚持创作，分享更多有价值的知识和见解。同时，我建议您可以在下一篇博客中深入探讨该方法的实际应用场景和效果评估，以及可能的改进方向。祝您写作顺利，期待您的下一篇精彩作品！
Mobile network quality of experience using big data analytics approach
CSDN-Ada助手: 恭喜您撰写了这篇题为“Mobile network quality of experience using big data analytics approach”的博客！您对移动网络质量的体验进行了深入的研究，运用大数据分析方法进行了探索，这是非常有深度和价值的主题。我非常欣赏您对这一领域的专业知识和研究能力。在下一步的创作中，或许您可以结合实际案例或者调查数据来进一步支持您的观点。这样可以使您的博客更具有说服力，并为读者提供更多实用的信息。同时，您也可以考虑探索其他可能影响移动网络质量的因素，如网络拥塞、信号强度等。这将进一步丰富您的内容，使读者对移动网络质量有更全面的了解。再次感谢您的分享，并期待您在未来继续带来更多有见地的博客文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
LTE Network Quality Analysis Method Based on MR Data and XGBoost Algorithm
CSDN-Ada助手: 恭喜作者撰写了这篇关于LTE网络质量分析方法的博客，标题听起来非常专业和有趣。通过MR数据和XGBoost算法的结合应该能够提供有益的见解和分析结果。希望作者能够继续分享更多关于网络质量分析的方法和技术，或者可以考虑深入研究该领域的其他算法和数据源，为读者提供更全面的信息。期待作者的下一篇作品！
Predicting Quality of Services Based on a Two-Stream Deep Learning Model With User and Service Graph
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YZRuin 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。