Dictionary Extraction andDetection of Algorithmically Generated Domain Names inPassive DNS Traffic

最新推荐文章于 2021-07-14 10:08:07 发布

AG9GgG

最新推荐文章于 2021-07-14 10:08:07 发布

阅读量445

点赞数

分类专栏：远控-Command&Control

本文链接：https://blog.csdn.net/AG9GgG/article/details/100978295

版权

8 篇文章 1 订阅

订阅专栏

基本概念

Path，路径
对于图G=(V,E)，一个行程(walk) $v_{1}, e_{1}, v_{2}, e_{2}, ... ,v_{n}, e_{n},v_{n+1})$ 中，如果没有重复经过同一个节点v和边e，称为路径。
Cycle，循环
对于图G=(V,E)，增加新的边 $e_{n+1}$ 使得行程 $v_{1}, e_{1}, v_{2}, e_{2}, ... ,v_{n}, e_{n},v_{n+1})$ 中的点 $v_{n+1}$ 与 $v_{1}$ 连通，整个行程形成一个环路。
Cycle Basis，基础循环
经过图中每一条边且只经过一次的最小闭合称作欧拉子图。无向图的循环空间是它的欧拉子图的集合。一个基础循环是指循环的最小集合，其中的欧拉子图互斥。
The average shortest-path length，APSL，平均最短距离
令F为所有连通的节点对的集合，则 $ASPL(G)=\frac{1}{|F|}\sum_{(v_{i},v_{j})\in F}dist(v_{i},v_{j})$ ，其中 $dist(v_{i},v_{j})$ 是两节点之间的边数。
图G的连通分量 $G^{'}$ 是G的一个子图， $G^{'}$ 中的任意两个节点均连通。

本文提出的是基于字典的词图（WordGraph）方法。
域名集合 $C={c_{1},c_{2},...,c_{q}}$ 既含有正常域名，也含有Dictionary-AGD域名，本算法的目标是区分C中的Dictionary-AGD域名。

从域名中提取单词：
提取在至少两个SLD中出现至少m(m=3)次的单词构造字典。例如对于集合[“facetype.com”, “facetime.com”, “bedtime.com”, “faceboard.com”, “bedboard.com”, “bedding.com”]
提取的字典为D={“face”, “time”, “bed”, “board”, “facet”}

在这里插入图片描述

先按照TLD将C划分为多个子集 $C_{1}, C_{2}, ..., C_{r}$ 。这样划分可以有效控制噪声和图的大小。
在每一子集内定义图G：
节点： $C_{i}$ 中至少出现一次的单词
边：同一域名的单词两两之间建立连接
上图为理想状态下的恶意域名词图和正常域名词图。但是在实际应用中，一些正常域名也会在恶意域名较多的子集中，于是实际获得的词图并不像图中那样边界分明。

进行三种模式的对比实验（对比算法为随机森林RF和CNN）：
–训练集和测试集使用相同的字典生成域名
–训练集和测试集使用不同的字典生成域名
–使用很少的恶意样本进行训练

labeled ground truth data : DGArchive(a web database for DGA domains from various families, and from the Alexa top 1 million domains)
恶意流量：根据三个不同的字典使用Dictionary-based DGA Suppobox生成的域名。
真实流量：ISP

数据大小
数据处理
由于CNN需要定长输入，所以设置长度为75，长度不足75的域名左边以0填充。RF和WordGraph均不需要做特殊处理。
–RF：
使用11个特征：1.信息熵；2.2-gram中位数；3.3-gram中位数；4.符号字符比；5.十六进制字符比；6.元音字符比；7.域名长度；8.gini字符索引；9.字符分类错误；10.顶级域名散列值；11.第一个数字
每个森林包含100棵树。
–CNN：
卷积神经网络由一个嵌入层，一个卷积层，两个隐藏层和一个输出层组成。
结果
局限性：
—如果恶意软件将DGA作为C2阶段的辅助工具，将通信地址硬编码在软件内部，则该恶意软件不会产生过多的DGA域名访问，例如Matsnu，WordGraph将无法很好地检测。
—假设攻击者知道检测字典，那么可以专门构造绕过字典的检测

关注

专栏目录