fidas :“软硬融合入侵检测卸载方案”

近日,国际体系结构领域顶级会议ISCA 2022公布了今年论文录用结果,阿里云服务器研发团队和云产品安全团队联合提交的论文《Fidas: Fortifying the Cloud via Comprehensive FPGA-based Offloading for Intrusion Detection》以评委满分入选!

论文以云场景下入侵检测系统的硬件加速为研究目标,通过基于FPGA的正则匹配和流量分类的协同加速以及数控分离,在软件灵活度,规则更新敏捷度,加速任务数目和卸载平衡度等方面都比现有方案有显著提升。此项工作全面展示了软硬融合设计在入侵检测等规则复杂领域所具有的优势,并已在阿里云数据中心上规模化产品应用。

ISCA创办于1973 年,是历史悠久的计算机体系结构顶会,全称International Symposium on Computer Architecture(ISCA),由ACM SIGARCH(计算机系统结构特殊兴趣组)和IEEE TCCA(计算机架构技术委员会)联合发起。ISCA/Micro/HPCA是体系结构领域的三大顶级会议,而ISCA是其中业界公认的影响力最大顶会,论文录取率常年维持在18%左右。历年来,在ISCA上发表的多项研究成果已在计算机和半导体行业广泛应用。

研究背景

入侵检测是云厂商抵御外部网络攻击,保障网络安全的第一道防线。据国际权威机构统计显示,2020年针对云服务的网络攻击就占到了网络攻击总量20%以上,而且占比逐年不断增加,因此入侵检测的防护能力对保障云安全的重要性也日益突出。同时,随着数据中心出口网络带宽的爆炸式增长,入侵检测所需的算力要求也越来越高;单纯靠CPU进行包处理很难达到100Gbps以上的线速。因此现有大型数据中心的入侵检测方案通常是通过硬件加速的方式实现的。

论文从云厂商的视角,首次提出了从四个不同的维度来综合评估入侵检测加速方案, 分别为:软件灵活度、规则更新敏捷度、加速任务数目和卸载平衡度。业界现有侵检测加速方案在这四个维度上或多或少都不尽如人意。如:即使是近期炙手可热的DPU, 就正则匹配而言,它的软件灵活度只能达到中等,因为它依赖于闭源的运行时(Running Time),CSP不能完整掌控整个软件栈,且容易造成供应商锁定(Vendor Lockin);另一方面,针对DDoS类的攻击检测,DPU只能通过P4流水线来间接实现对流量分类(Flow Rate Classification)加速,其性能和吞吐并不令人满意,因此并没有完全实现CSP所期望的平衡卸载。本文提出的Fidas(FPGA-based Instruction Detection Acceleration System)采用了正则匹配和流量分类同步卸载的创新架构,在这四个维度上都很好的满足了CSP的需求。

为什么命名为Fidas?
取自FPGA-based Instruction Detection Acceleration System英文全称的缩写,同时在拉丁语中Fidas意为“忠实可信”,正好代表业界对入侵检测业务的价值期望。

架构创新

如果我们将业界主流厂商A方案,Pigasus和Fidas放在一起比较(如下图所示),可以发现一个清晰的技术发展脉络——即从厂商A方案的单任务正则匹配卸载,到Pigasus的包含包处理和正则匹配在内的多任务卸载,再到Fidas的综合正则匹配和流量分类同步卸载。从这个视角来看,Fidas实际代表了数据中心入侵检测领域的架构演进方向。事实上,根据STRIDE攻击模型,攻击可分为基于包内容的攻击(如电子欺骗、篡改、否认、信息泄露、特权升级)和基于包时序的攻击(如拒绝服务)。Fidas的综合卸载对这两类攻击的检测都进行了加速和覆盖。

除了综合卸载的整体架构,Fidas也对正则匹配和流量分类的设计,结合实际部署的痛点进行了创新。在正则匹配上,Fidas提出了软硬协同,数控分离的面向DevOps的卸载设计模式。它将规则分析和拆解,子规则编排等工作交由软件处理,硬件根据编排好的子规则分级进行匹配,如下左图所示。另一方面,在流量分类上,我们创造性的提出基于Dual-stack的流量分类加速方案,实现了对不同冷热程度流量的高效分类,如下右图所示。

通过这样的设计,我们可以实现在100Gps线速下的正则匹配;同时支持10M流的流量分类而无丢包现象。与传统上采用Hyperscan的Snort相比,在达到相同的匹配吞吐量时,Fidas可以节省30~120个CPU核。这些省下的CPU核可以带来相对应的服务器节省,或者为其他应用提供算力,带来可观的成本降低和性能收益。

业务收益和思考

Fidas已经在数据中心上规模化生产部署了两年。本文也对Fidas在实际生产部署中的经验, 总结了以下三点:

● 正则匹配和流量分类的综合卸载给入侵检测的效率提供了合力。具体来说,流量分类的卸载加速为DDoS攻击的检测响应时间减少了100多纳秒,从而更快的将DDoS流量从总流量中移除,这相应的也减少了正则匹配花在处理DDoS流量上的无效处理时间,提高了入侵检测的整体效率。

● 针对DevOps敏捷性的设计是具有很高价值的。在生产过程中,规则更新十分频繁,最短需在一天之内完成;而且整个IDS软件也经历了数次更新,但无需重新更改硬件。这体现了规则预处理和模式匹配解耦的面向DevOps的软硬协同设计在实际生产中带来的价值。

● 一个完全开放的软件栈是CSP采用卸载方案的重要因素。与基于DPU的商业方案相比,自研FPGA方案成本上不具优势,毕竟DPU有规模效应的优势。但是现有主流DPU软件栈并不完全开放,可能依赖于私有的库或运行时;而自研FPGA可以确保整个软件栈的兼容性和可控性,这对CSP来说是一个重要的考量因素。如果未来相关芯片厂商采取更加开放的策略,DPU开放式软件生态才有可能健康成长。

从2020年HPCA/ISCA/MICRO三大顶会全面开花,到HPCA2021梅开二度,再到ISCA2022论文满分入选和Chiplet分论坛的组织,一路走来,记载了阿里云基础设施服务器研发团队深耕基础研究和工程领域、不断精进的足迹。

尤其是近年来基于阿里云软硬协同/融合基础上沉淀形成的磐久基础设施,已成为阿里云飞天操作系统统一高效的硬件基础,包括虚拟化场景下的网络/存储/安全的硬件卸载、存储压缩和Solar-RDMA网络协议的硬件卸载、多媒体/TEE/加解密的硬件卸载,以及计算和存储的软硬件一体的Aliflash等一批软硬融合的产品和解决方案在阿里云数据中心批量部署。通过“硬件软件化”不断释放基础设施硬件能力的红利,阿里云正通过“软件产品硬件化”持续给客户提供更好、更佳的性能体验。


 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值