摘要
- 提出RTC(Robust statistical Traffic Classficiation)模型解决zero-day应用问题。
- 提出用于RTC模型参数自动优化的方法。
Introduction
- 三种主流流量分类问题的解决方案
基于端口(port-based)
- 依赖于检测标准端口,
- 缺点:不使用标准端口和端口混淆
基于payload(payload-based)
- 在IP包的payload中寻找签名信息
- 最普遍的,但处理不了加密流量
基于流统计(flow statistics-based)
- 与机器学习结合
- 使用流的统计特征,不需要深入检测pcap包
- zero-day app:previously unknown in traffic.
- 传统分类方法将zero-day app误分为已知类,导致分类精度低。
- 这篇论文主要为了解决这个问题,贡献有以下三点:
1.提出RTC模型解决zero-day问题,用到了监督学习和无监督学习方法。
2.提出了从无标签流量中提取zero-day流量的方法。
3.提出用于RTC模型参数自动优化的方法。
论文其他章节概述:
第二章,基于统计特征的流量分类方法的评论;
第三章,阐述RTC方法;
第四章,参数优化方法;
第五章,实验评估;
第六章,对提出的RTC模型的讨论;
第七章,总结;
Related Work:
- 当前检测流量分类的主流研究方向是基于统计学习的方法,可以绕过基于端口和基于payload方法存在的一些问题,比如动态端口、混淆端口和加密流量等。
- ip ——-> [ source IP, source port, destination IP, destination port, transport protocol ]
RTC模型:
- 如何获取有效的zero-day traffic samples是解决这个问题的关键?基于一个观察——无标签的网络流量中包含zero-day 流量。
RTC包含三个模块:
1.Unknown Discovery
在无标签的网络流量中自动发现zero-day流量
2.“bag of flows” (BoF)
用标签数据和zero-day流量构建分类器
3.system update
自动构建新的类来补充系统的知识
A. Unknown Discovery
- 从没有标签的网络流量中提取zero-day流量
Tl集合:表示打好标签的已知类;Tu集合:表示没有打标签的类,直接从网络流量中抓<