如何提高大规模正则匹配的效能

最新推荐文章于 2024-07-05 06:29:53 发布

360技术

最新推荐文章于 2024-07-05 06:29:53 发布

阅读量1k

点赞数

文章标签：大数据编程语言 python 人工智能 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qihoo_tech/article/details/114312298

版权

奇技 · 指南

今天小编为大家分享一篇关于如何提高大规模正则匹配的效能的文章

背景

日常工作中会大量应用正则表达式，用正则表达式去定义规则，然后去匹配数据。这里先看两个安全场景下的正则应用需求

场景1，FTP账号被成功暴力破解后数据遭窃取

• 数据源：FTP服务器日志

• 关联逻辑：针对特定账号暴力破解，然后利用该特定账号登录成功，之后利用该特定账号下载大量文件

• 告警内容：FTP账号${user_name}被成功暴力破解后窃取数据

• 告警级别：高危

场景1中，正则表达式用于在日志中匹配多次账户登录的行为上。

场景2，Deep packet inspection (DPI) ，例如过滤网络威胁和违反安全策略的流量等

• 数据源：网络数据包

• 检测规则条件：数据命中规则集

场景2中，正则表达式用于时间序列上的多个数据包之间的安全检测。

其实，场景1中只列举了FTP被攻击的一种方式，FTP攻击还有很多其他手段，所以检测FTP被攻击的正则匹配场景的另一个特征就是整个规则集可能很大；场景2中，利用已知的入侵行为构建模式集合，通过检测网络数据包，发现是否存在不符合安全策略的行为或被攻击的迹象，这需要对数据包的载荷部分进行检测，要求匹配的速度非常快，否则将会影响用户体验。

另一方面，这里用到的正则与传统用法又不太一样，对正则的传统用法是，给定一个文本，用一个或少数几个正则规则，去匹配文本，找出文本中匹配的数据。而现在面对的问题，首先是规则的数量大，上千上万或者超过十万的规则集，如果仍然采用之前的做法，用|分割，或者外层用循环去匹配，那么处理的时间将很长，对资源的消耗也很大，基本不可接受；其次在匹配的时候，待匹配的数据不是一个完整的整体，比如说网络数据包，是一个一个接收的，这是一个流式的形式，传统的正则处理引擎不能很好的处理流式数据，需要缓存一批数据去匹配，这样匹配就不够及时，而且目前正则处理有个很大的问题，如果正则表达式写的不好，那么匹配会很慢。所以，需要一个解决方案来应对以下这些挑战：

• 规则数量多

• 匹配速度要快

• 支持流式数据

• 资源消耗不能太大

Hyperscan算子介绍

针对上述正则匹配中遇到的挑战，经过调研和对比测试市面上的主流正则匹配引擎，我们最终选择了Hyperscan。

Hyperscan是Intel开源的高性能正则表达式匹配库，提供了C语言API，目前已经在很多商业项目和开源项目中得到应用。

Hyperscan具备这些特性：

• 支持大部分PCRE正则语法（如果使用Chimera库，那将支持所有语法）

• 支持流式匹配

• 支持多模匹配

• 采用特定指令集加速匹配

• 易于扩展

• 内部多种引擎结合

Hyperscan在设计之初就是为了更好的处理流式匹配和多模匹配，对流模式的支持极大的方便了正则用户，不再需要用户去维护接收到的数据，无需缓存数据；多模匹配允许把多个正则表达式传入并在同一时间进行匹配。

因为需要特定的指令集，所以Hyperscan对CPU有要求，如下图：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
如何提高大规模正则匹配的效能

奇技 · 指南今天小编为大家分享一篇关于如何提高大规模正则匹配的效能的文章背景日常工作中会大量应用正则表达式，用正则表达式去定义规则，然后去匹配数据。这里先看两个安全场景下的正则应用需求场...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。