DGA深度学习相关论文

本文探讨了深度学习在检测DGA(域生成算法)僵尸网络中的应用,包括基于word-hashing的深度检测模型和LSTM.MI算法。word-hashing技术用于将域名转换为高维向量,通过5层深度神经网络进行分类检测。LSTM.MI算法解决了多类不平衡问题,通过成本敏感的学习提高对小类别DGA的检测性能,实验证明这种方法优于传统方法。
摘要由CSDN通过智能技术生成

一、基于 word-hashing 的 DGA 僵尸网络深度检测模型 (2017)

  主要贡献:基于word-hashing 将所有 域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间. 然后利用5 层深度神 经网络对转换为高维向量的域名进行训练分类检测。 通过深度模型,能够从训练数据中发现不同 层次抽象的隐藏模式和特征,而这些模式和特征使用传统的统计方法大多是无法发现的.

     自然语言处理中将字 符串或者词汇转换为向量最常用的方式是one-hot Encoding 技术,但是 one-hot Encoding 技术并不适合这里的应用场景.在自然语言处理中,one-hot Encoding 生成的向量非常稀疏,需要通过上下文 关系使用 word embedding 技术降维. 而在本文中域名之间并不存在上下文关系,因此使用 word embedding 技术降维方法生成的向量也就无法体现出域名该有的特征信息。

     word-hashing技术,将所有域名字符串使用二元语法( bigram) 表示,然后将生成的 bigram 字符串利用词袋模型( Bag-of-words model) 表示,把域名映射到高维向量空间.向量空间的维度就是不同 bigram 字符串的个数,每一个 维度对应一个bigram 字符串,域名向量中每个维 度的数值就是域名在该维度对应 bigram 字符串出 现的个数.使用 bigram 的好处是可以保存很多域名语义相关的信息,例如相连的辅音元音前后关 系,双元音都可以包含在一个 bigram 中,同时域名 bigram 的个数也反映了域名的长度.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值