讲完DPI的强大,再来讲讲DPI的劣势
- 容易被欺骗。因为DPI是通过规则库识别协议或者服务,因此很容易被开发者利用,通过伪装和混淆等手段来欺骗DPI设备。
- 无法应对加密流量。加密的引入是为了保护用户的隐私,用户隐私被侵犯的原因很大程度上是流量分析导致的,而DPI是流量分析的重要工具。这是一个对抗的过程。
- 当新协议或者应用出现,DPI无法产生及时的应对。这点讲的主要是泛化的能力,对未知数据能够具备同样或者较好的处理能力。
今天的论文,既没有用DPI来进行流量识别,也没有用机器学习和深度学习方法。而是采用流统计特征,通过DFI技术进行流量识别。(其实也是可以用机器学习的)。
DFI(深度流检测),针对不同的数据流的统计规律和连接规律,例如连接速率、流持续时间、报文长度分布等进行深度检测,对数据流进行分类。
其实像DPI和DFI这种类型的检测方法,最大的缺陷就是需要定期及时的更新规则库。检测特征受到众多因素的影响,而且非常容易改变。一旦变化而且没有及时更新,就很可能检测失效或者准确率降低。DFI也确实是可行的思路。
原文链接:Silhouette - Identifying YouTube Video Flows from Encrypted Traffic
源码链接:Code base on python
数据集链接:Video
大多数视频流传输都采用HTTP协议,Youtube视频流有两种表现形式,QUIC+HTTP和TCP+HTTP。(QUIC,TCP是传输层协议,HTTP是应用层)由于其应用行为是一致的,数据流特征表现也相对接近。因此可以针对这两种表现形式找到通用的识别方法。
Youtube在视频传输中支持两种不同的形式,首先是渐进式下载(240p,360p,480p),渐进式下载就