Hyperscan 在Rspamd中的应用

最新推荐文章于 2024-10-07 21:05:43 发布

技术探索者

最新推荐文章于 2024-10-07 21:05:43 发布

阅读量1k

点赞数

分类专栏：网络安全系列文章标签： hyperscan

原文链接：https://blog.csdn.net/weixin_37097605/article/details/101514309

版权

网络安全系列专栏收录该内容

32 篇文章 17 订阅

订阅专栏

本文将介绍Hyperscan在电子邮件过滤系统Rspamd中的应用。

Rspamd简介

Rspamd(https://www.rspamd.com)是一款快速、免费、开源的电子邮件过滤系统，由主进程、扫描进程、控制器和服务进程等部分构成。

0?wx_fmt=jpeg

电子邮件过滤系统长期以来一直是模式匹配技术的重要用户，通常要求扫描通过邮件服务器的每个消息，对大量的正则表达式规则集进行匹配。Rspamd也不例外，每条MIME(Multipurpose Internet Mail Extensions)消息的各个部分都对应有预定义的正则规则集，Rspamd扫描消息各部分来检测是否有对应正则规则集上的匹配。原生的Rspamd使用PCRE做正则表达式匹配工作，但PCRE只能在一次扫描中对单条正则表达式进行匹配，对于大规模正则规则集需要对相同输入进行多次扫描。

0?wx_fmt=jpeg

Hyperscan在Rspamd中的应用

自Rspamd 1.1 release开始，将Hyperscan集成其中，用于处理正则表达式匹配任务。其关键点在于下述几个方面：

高性能

Hyperscan在单条正则表达式匹配上的表现比PCRE更加优秀。此前有专门的文章(从PCRE到Hyperscan)介绍对比测试的结果。

多模式匹配

一种简单的解决方案是将多条正则规则用“或”合并成单条，例如：/abc/, /cde/, /efg/ 三条规则可以合并为 /(abc)|(cde)|(efg)/

但并非所有情况都可以这样做。通常我们的正则表达式是带有标志的，例如：

/foo.*bar/H – 单次匹配

/[a-f]{6,10}/i – 忽略大小写

/^GET\s.*HTTP/m – 支持换行

这些正则表达式无法简单的用”或”合并，但对于Hyperscan而言并不是问题。

多模式匹配(MPM: Multi-Pattern Matching)是Hyperscan的一大优势，Hyperscan支持对多条正则规则进行一次编译以及对输入数据进行一次扫描便找出其中所有的匹配。相比PCRE，这将大幅减少所需扫描的数据量，且在性能方面更优于对每条正则规则进行逐次扫描的累加结果。(参考：从PCRE到Hyperscan)

预过滤模式支持

目前Hyperscan不能全面覆盖PCRE的语法，不支持反向引用(Back Reference)和零宽断言

(Zero-Width Assertion)。但由于Hyperscan相对PCRE的性能优势，可以将这类Hyperscan不支持的语法转化为一个超集且为Hyperscan支持的语法做预过滤匹配。例如：

/foo(\d)+bar\1baz/ 转化为 /foo(\d)+bar(\d)+baz/

转化后的正则表达式与未经转化的正则表达式一起编译，对输入数据进行扫描，产生数处匹配。对正常匹配直接报告；对预过滤产生的匹配用PCRE做一次确认，确认成功才报告。如下图：

0?wx_fmt=jpeg