基于TADK的应用分类

TADK是Intel的流量分析开发套件,利用FFEL和机器学习模型进行应用分类。FFEL通过提取流量特征,如包级别和流级别特征,并利用AVX512优化性能。模型使用Intel oneDAL的随机森林算法,提供高精度和快速推理。TADK还引入了基于聚类的半自动打标签方法,简化数据清洗,并支持模型增量更新和线上推理。
摘要由CSDN通过智能技术生成

基于TADK的应用分类

Traffic Analytics Development Kit (TADK) 是Intel 推出的针对IA平台高度优化的流量分析开发套件。其核心模块流特征提取库Flow Feature Extraction Library (FFEL) 和 基于机器学习的模型 (Model) 可以为用户提供精确的应用分类能力。基于机器学习的应用分类较传统基于深度报文检测的方法有着更广泛的适用性,并且对于加密报文也有一定的检测能力。

FFEL 可以从离线pcap文件或者在线网口获得流量并提取其特征输出到指定文件。其主要提取的特征包括: 包的上下行数目, 包头长度及其分布, 载荷长度及其分布, 包的持续时间等包级别的特征; 协议类型及字符串信息等流级别的特征。对于包头及包载荷分布的计算 (本质上是直方图计算),利用AVX512进行优化,其性能(吞吐量)较传统C实现的方法有着1.33~11. 73倍的提升。对于字符串信息(从tls 的sni及http的url等提取),采用词袋(BOW)模型将其转化成数值特征。统计学特征加上BOW特征构成最终的特征向量,两者结合也能有效提升模型推理的精确度。另外,FFEL也提供了用户增加自己所需特征的接口,方便用户对特征进行定制化。特征提取的流程见图1

d2b2f76bc5f6e391cbe2bdfccaf1d9b0.png

图1. 特征提取流程

模型选用的是Intel oneDAL (数据分析加速库)提供的随机森林(Random Forest, RF)算法。RF算法因其具有较高的推理精度及较快的推理速度在分类问题上应用

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值