ELK学习指南（四）- logstash-filter-grok

最新推荐文章于 2024-02-22 14:14:06 发布

一只有理想的猫

最新推荐文章于 2024-02-22 14:14:06 发布

阅读量610

点赞数

分类专栏： ELK 文章标签： ELK logstash filter grok

本文链接：https://blog.csdn.net/GongXulun/article/details/79321813

版权

ELK 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

正则表达式抽取字段

1.内置很多写好的正则，如：NOTSPACE，REEDYDATA，HOSTNAME，ISO8601_TIMEZONE，LOGLEVEL
详情可参考：https://github.com/logstash-plugins/logstash-patterns-core/blob/master/patterns/grok-patterns
内置表达式使用语法示例：%｛LOGLEVEL：loglevel｝

2.自定义正则表达式：除了使用内置正则，很多时候还需要自己自定义正则表达式，自定义正则表达式的做法是
1）先在logstash安装目录下新建文件夹（名字可以自定义）：patterns
2）在新建文件夹里，新建一个文件
3）在新建文件里编写自定义正则，格式如下：

TIMESTAMP_GC001 %{YEAR}-%{MONTHNUM}-%{MONTHDAY}T%{HOUR}:?%{MINUTE}(?::?%{SECOND})
TIMESTAMP_GC002 %{YEAR}-%{MONTHNUM}-%{MONTHDAY}T%{HOUR}:?%{MINUTE}(?::?%{SECOND})%{ISO8601_TIMEZONE}

3.grok插件，match选项中的正则表达式有三种种写法，
1）第一种，使用有命名的正则表达式，如：

%{TIMESTAMP_ISO8601:timestamp}\s+%{LOGLEVEL:loglevel}\s+\[%{NOTSPACE:thread}\]\s+%{JAVACLASS:logclass}\:\s+%{GREEDYDATA:content}

2）第二种，使用原生正则表达式，如：

\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}.*ParNew: (?<ParNew_before_memory>\d{1,7})K->(?<ParNew_after_memory>\d{1,7})K\((?<ParNew_total_memory>\d{1,7})K\), (?<ParNew_GC_time>\d\.\d{7}) secs\] (?<heap_before_memory>\d{1,8})K->(?<heap_after_memory>\d{1,8})K\((?<heap_total_memory>\d{1,8})K\), (?<heap_GC_time>\d\.\d{7}) secs\].*real=(?<real_time>\d\.\d{2})

3）第三种，混合方式，如：

%{TIMESTAMP_ISO8601:timestamp}: \d{1,5}.\d{3}:.*CMS-initial-mark.*K\), (?<CMS_initial_mark_time>\d\.\d{7}) secs

4.match的多项匹配：有时候我们会碰上一个日志有多种可能格式的情况。这时候要写成单一正则就比较困难，或者全用 | 隔开又比较丑陋。这时候，logstash 的语法提供给我们一个有趣的解决方式。文档中，都说明 logstash/filters/grok 插件的 match 参数应该接受的是一个 Hash 值。但是因为早期的 logstash 语法中 Hash 值也是用 [] 这种方式书写的，所以其实现在传递 Array 值给 match 参数也完全没问题。所以，我们这里其实可以传递多个正则来匹配同一个字段：

match => [                
	    "message","%{TIMESTAMP_ISO8601:timestamp}\s+%{LOGLEVEL:loglevel}\s+\[PriorityRpcServer.handler=%{NUMBER:RPCconnection:INT},queue=\d,port=\d{5}\]\s+%{JAVACLASS:logclass}\:\s+%{GREEDYDATA:content}",
            "message","%{TIMESTAMP_ISO8601:timestamp}\s+%{LOGLEVEL:loglevel}\s+\[RS_OPEN_REGION-dev\d:%{USER:region}\]\s+%{JAVACLASS:logclass}\:\s+%{GREEDYDATA:content}",
            "message","%{TIMESTAMP_ISO8601:timestamp}\s+%{LOGLEVEL:loglevel}\s+\[%{NOTSPACE:thread}\]\s+%{JAVACLASS:logclass}\:\s+%{GREEDYDATA:content}"
         ]

logstash 会按照这个定义次序依次尝试匹配，到匹配成功为止。虽说效果跟用 | 分割写个大大的正则是一样的，但是可阅读性好了很多。

一只有理想的猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ELK学习指南（四）- logstash-filter-grok

正则表达式抽取字段1.内置很多写好的正则，如：NOTSPACE，REEDYDATA，HOSTNAME，ISO8601_TIMEZONE，LOGLEVEL详情可参考：https://github.com/logstash-plugins/logstash-patterns-core/blob/master/patterns/grok-patterns内置表达式使用语法示例：%｛LOGLEVEL：lo...
复制链接

扫一扫