调研-笔记-基于生成对抗网络的恶意域名训练数据生成

本文探讨了如何运用生成对抗网络(GAN)来创建恶意DGA域名的训练数据。通过对域名的字符特性分析,构建了包括域名编码器、生成网络、对抗网络和解码器的模型。实验结果显示,生成的DGA域名样本在统计特征和分类性能上与真实样本具有相似性,验证了这种方法的有效性。
摘要由CSDN通过智能技术生成

DGA 域名字符生成模型

域名字符分析

问题:理论上 GAN 中的生成器和判别器部分采用任意可微函数都能表示,因此其主要用于连续数据的处理,如图像生成、视频检测等[13]。基于文本的离散数据处理一直是深度神经网络研究的难点之一。

本文基于字符串的文本域名来构建生成网络, 在构造训练 GAN 之前,需要对域名数据样本做变换处理。

域名在构造上可分为两部分:主机名和域名(包括顶级域 及可能的二级域、三级域等)。DGA 域名在构造上一般用随机 算法来生成主机名,域名部分相对固定或变化较少。如symmi 的 DGA 域名hakueshoubar.ddns.net,其域名是由元辅音字符生 成器和 ddns.net 组合而成;Conficker.C 的 DGA域名plrjgcjzf.net、 gkrobqo.info 等也是由同频率的字符生成器和一级域名组合而成。

因此本文中在生成域名时不考虑域名数据集中的一二级域 名部分,只对DGA算法生成器的主机名的字符特性进行分析。 本文基于 GAN 的 DGA 域名数据生成模型主要包括域名 编码器、生成网络、对抗网络和域名解码器四个部分。

域名编、解码器

这里主要讲的是域名字符串通过字符Ascall码值转换函数、归一化变为域名张量,以及域名张量还原成域名字符串。

 生成网络

生成网络由四层神经网络组成,包括输入层、隐含层和输 出层。其中输入层数据来源于高斯分布模型并随机产生 n=100 维的数据,激活函数采用 ReLu 函数。网络包含两层隐含层,节点数分别为 n=150 和n =300,激活函数亦采用 ReLu 函数。输出层节点数为 n =15(即域名向量维度),考虑到域名向量元素区间为  [1,0],因此

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值