记一次正则表达式匹配User-Agent

最新推荐文章于 2024-06-02 09:54:11 发布

影丶Joker

最新推荐文章于 2024-06-02 09:54:11 发布

阅读量2.5k

点赞数

分类专栏：创新实训文章标签： regex nginx

本文链接：https://blog.csdn.net/qq_41035346/article/details/107045705

版权

创新实训专栏收录该内容

13 篇文章 0 订阅

订阅专栏

由于spark streaming最后需要将原始日志分割存入数据库中，需要写正则表达式（Regex）去匹配分割Nginx日志
这次get到了正则表达式的子表达式，通过子表达式一次性匹配多个项，从而用一个正则表达式提取所必要的信息
但是，由于参考项目的日志与我们的日志有所不同，我们需要在其正则表达式中进行修改，增加对userAgent头和X-Forwarded-For头的匹配
但是由于正则表达式的贪婪匹配，匹配引号时总会和前面的http请求一起匹配到一起，导致匹配不到足够多的子表达式，然后取数据时数组越界错误
后面经过修改，通过对空白字符的精确匹配，成功克服这个错误

以下给出这次正则表达式的flag

^(\S+) (\S+) (\S+) \[([\w:/]+\s[+\-]\d{4})\] "(\S+)\s?(\S+)?\s?(\S+)?" (\d{3}|-) (\d+|-)\s?"?([^"]*)"?\s?"?([^"]*)?"?\s?"(\d.\d.\d.\d|-)"$

影丶Joker

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记一次正则表达式匹配User-Agent

由于spark streaming最后需要将原始日志分割存入数据库中，需要写正则表达式（Regex）去匹配分割Nginx日志这次get到了正则表达式的子表达式，通过子表达式一次性匹配多个项，从而用一个正则表达式提取所必要的信息但是，由于参考项目的日志与我们的日志有所不同，我们需要在其正则表达式中进行修改，增加对userAgent头和X-Forwarded-For头的匹配但是由于正则表达式的贪婪匹配，匹配引号时总会和前面的http请求一起匹配到一起，导致匹配不到足够多的子表达式，然后取数据时数组越界错误
复制链接

扫一扫