TLS协议恶意加密流量识别研究综述
摘要
随着5G时代的来临,以及公众对互联网的认识日益加深,公众对个人隐私的保护也越来越重视。由于数据加密过程中存在着恶意通信,为确保数据安全,维护社会国家利益,加密流量识别的研究工作尤为重要。
针对TLS流量详细的阐述:
(1)分析了早期识别方法的改进技术,包括常见的流量检测技术、DPI检测技术、代理技术以及证书检测技术。
(2)介绍了选取不同TLS加密流量特征的机器学习模型,以及无需特征选择的深度学习模型等诸多最新研究成果。
对相关研究工作的不足进行总结,并对未来技术的研究工作和发展趋势进行了展望。
论文解决的问题与贡献
1. TLS1.3问题与归纳
2. 现存检测技术问题总结
3. 常见有效特征总结
4. 研究模型方法总结
5.领域技术迁移
在前面发展的基础上,在解决了数据集的问题后,不乏尝试将用在文本/图像处理,甚至语音识别,情景分析等深度学习模型应用到加密流量的检测领域。这些模型在本身的领域已有相当成熟的研究,且取得了不错的研究成果。
如目前较为新颖的 BERT 模型,在解决Transformer模型需要训练大量的参数基础上,通过上下文全向实现自然语言文本的更精准识别处理。想要将BERT模型应用到本领域,还存在着下面的问题:
(1)如何高效准确地将 TLS 加密流量转换成如图像,自然语言处理文本,甚至语音进行处理。
(2)将胶囊神经网络(capsule network),对抗神经网络(generative adversarial networks,GAN)等模型应用到加密恶意流量识别中
如:在胶囊网络中可以通过将获取的 TLS 数据集(.PCAP 数据包等)转化为图像特征,并作为模型的原始数据输入进行训练,这些低层胶囊对其输入执行一些相当复杂的内部计算,然后将这些计算的结果封装成一个包含丰富信息的小向量;再如设计动机为自动化特征提取的GAN网络,利用GAN网络生成器,可以初步解决因为恶意流量少而导致的数据不平衡问题,并利用判别器迭代优化数据,以此有效提高自学习特征的可解释性和检测效率。