主要贡献:
1)引入一个LSTM网络来预测DGA生成的域,据我们所知,这是第一个深度学习到这个域的应用和深入分析;
2)呈现完整的实验结果,显示使用开放数据集的文献比先前的技术(实时和回顾性)显着改进;
背景介绍:
Domain Generation Algorithms
本文评估了对来自30种不同类型恶意软件的DGA生成域进行分类的能力。
DGA技术的复杂性从简单的统一生成的域名到那些试图模拟在实际域中看到的分布的域名。
在不使用上下文信息的情况下,使用suppobox等算法预测DGA生成的域是非常困难的。 事实上,本文提出的LSTM技术是唯一能够对这些域进行分类的实时技术。
DGA Classification
DGA分类可以成为域名信誉系统的有用组成部分。 域名信誉系统的任务是
指定一个域的可信得分。 该分数通常从0(最良性)到1(最恶意)变化。 域名信誉系统通常包含许多异构数据以决定域的声誉。 DGA分类是可以帮助将声誉分配给域的一条信息。以前的DGA分类方法大致可以分为两类:
1)回顾:按组分类域以利用批量统计属性或共同的上下文信息;
2)实时:单独对域名进行分类,不需要额外的上下文信息
LSTM Networks
在各种自然语言任务中,递归神经网络(RNN)已被用于捕获序列中令牌之间的有意义的时间关系。 RNNs的关键优势在于它们将上下文(状态)信息纳入从输入到输出的映射中。 也就是说,单个RNN小区的输出是输入层和先前RNN激活的函数。 由于包含自回归连接引入的长操作链