目录
介绍
Logstash是一个开源的服务器端数据处理管道。logstash拥有200多个插件,能够同时从多个来源采集数据,转换数据,过滤数据,然后将数据发送到您最喜欢的 “存储库” 中。(大多都是 Elasticsearch。)
他分为输入,过滤,输出
输入:采集各种样式、大小和来源的数据
Logstash 支持各种输入选择 ,同时从众多常用来源捕捉事件。
过滤器:实时解析和转换数据,数据从源传输到存储库的过程中,Logstash 过滤器能够解析各个事件,识别已命名的字段以构建结构,并将它们转换成通用格式,以便更轻松、更快速地分析和实现商业价值。
输出:选择您的存储库,导出您的数据,尽管 Elasticsearch 是我们的首选输出方向,能够为我们的搜索和分析带来无限可能,但它并非唯一选择。Logstash 提供众多输出选择,您可以将数据发送到您要指定的地方,并且能够灵活地解锁众多下游用例。
部署
新建一台虚拟机部署logstash
安装jdk和logstash
[root@vm10 ~]# yum install -y jdk-11.0.15_linux-x64_bin.rpm
[root@vm10 ~]# yum install -y logstash-7.6.1.rpm
命令方式
找到logstash命令的路径执行,标准输入到标准输出,即命令行输入,命令行输出
[root@vm10 bin]# /usr/share/logstash/bin/logstash -e 'input { stdin { } } output { stdout {} }'
文件方式(推荐)
即输出到文件
[root@vm10 bin]# cd /etc/logstash/conf.d/
[root@vm10 conf.d]# vim test.conf
input {
stdin {}
}
output {
stdout {}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf
file输出插件
设置输出到文件,定制格式
[root@vm10 conf.d]# vim test.conf
input {
stdin {}
}
output {
stdout {}
file {
path => "/tmp/logstash.txt"
codec => line { format => "custom format: %{message}"}
}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf
file输入插件
从文件读入,注意授予读取权限
[root@vm10 conf.d]# vim test.conf
input {
file {
path => "/var/log/messages"
start_position => "beginning"
}
}
output {
stdout {}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf
.sincedb文件保存文件读取进度,避免数据冗余读取,文件记录偏移量,下次直接读取缓存
[root@vm10 conf.d]# cd /usr/share/logstash/data/plugins/file
[root@vm10 file]# l.
. .. .sincedb_452905a167cf4509fd08acb964fdb20c
[root@vm10 file]# ls -i /var/log/messages
50695316 /var/log/messages
删除后即可重新读取
[root@vm10 file]# rm -f .sincedb_452905a167cf4509fd08acb964fdb20c
elasticsearch输出插件
定义格式,输出
[root@vm10 conf.d]# vim test.conf
input {
file {
path => "/var/log/messages"
start_position => "beginning"
}
}
output {
stdout {}
elasticsearch {
hosts => "192.168.56.177:9200"
index => "messages-%{+YYYY.MM.dd}"
}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf
可看见输出信息
syslog 插件
每台服务器上都部署logstash比较累,logstash伪装成日志服务器,每个节点服务器远程发送日志给logstash。
设定插件,默认端口514,监听每个客户端
[root@vm10 conf.d]# vim test.conf
input {
syslog {}
}
output {
stdout {}
elasticsearch {
hosts => "192.168.56.177:9200"
index => "syslog-%{+YYYY.MM.dd}"
}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf
配置客户端日志输出
[root@vm7 ~]# vim /etc/rsyslog.conf
# Provides UDP syslog reception
$ModLoad imudp
$UDPServerRun 514
*.* @@192.168.56.180:514
[root@vm7 ~]# systemctl restart rsyslog.service
多行过滤插件
错误日志一般都有很多行,如果按照前面的做法会分成很多条,分开读,单独看根本不知道什么意思,多行过滤可以把多行日志记录合并为一行输出。观察发现每次日志以”[“开头,则设定。
如何看不到输出,记得删掉缓存文件
[root@vm10 conf.d]# vim test.conf
input {
file {
path => "/var/log/my-es.log"
start_position => "beginning"
codec => multiline {
pattern => "^\["
negate => true
what => previous
}
}
}
output {
stdout {}
elasticsearch {
hosts => "192.168.56.177:9200"
index => "myeslog-%{+YYYY.MM.dd}"
}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf
现在则是多行了
grok过滤
我们平时查看日志,比如查看apache的日志,可以发现很有规律,如下图,先是访问的ip,时间等等,那么能不能只看其中一组数据,比如只想要ip这一列。现在就需要logstash的切片这个功能
对输入进行预处理,取ip等信息
[root@vm10 conf.d]# vim grok.conf
input {
file {
path => "/var/log/httpd/access_log"
start_position => "beginning"
}
}
filter {
grok {
match => { "message" => "%{HTTPD_COMBINEDLOG}" }
}
}
output {
stdout {}
elasticsearch {
hosts => "192.168.56.177:9200"
index => "apachelog-%{+YYYY.MM.dd}"
}
}
[root@vm10 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/grok.conf