filebeat学习日志（一）_fieb 日志-CSDN博客

本文链接：https://blog.csdn.net/i_chensi/article/details/100044480

简单概述
　　最近在了解ELK做日志采集相关的内容，这篇文章主要讲解通过filebeat来实现日志的收集。日志采集的工具有很多种，如fluentd, flume, logstash,betas等等。首先要知道为什么要使用filebeat呢？因为logstash是jvm跑的，资源消耗比较大，启动一个logstash就需要消耗500M左右的内存，而filebeat只需要10来M内存资源。常用的ELK日志采集方案中，大部分的做法就是将所有节点的日志内容通过filebeat送到kafka消息队列，然后使用logstash集群读取消息队列内容，根据配置文件进行过滤。然后将过滤之后的文件输送到elasticsearch中，通过kibana去展示。
filebeat介绍
　　Filebeat由两个主要组成部分组成：prospector和 harvesters。这些组件一起工作来读取文件并将事件数据发送到您指定的output。
什么是harvesters？
　　harvesters负责读取单个文件的内容。harvesters逐行读取每个文件，并将内容发送到output中。每个文件都将启动一个harvesters。harvesters负责文件的打开和关闭，这意味着harvesters运行时，文件会保持打开状态。如果在收集过程中，即使删除了这个文件或者是对文件进行重命名，Filebeat依然会继续对这个文件进行读取，这时候将会一直占用着文件所对应的磁盘空间，直到Harvester关闭。默认情况下，Filebeat会一直保持文件的开启状态，直到超过配置的close_inactive参数，Filebeat才会把Harvester关闭。
关闭Harvesters会带来的影响：
　　file Handler将会被关闭，如果在Harvester关闭之前，读取的文件已经被删除或者重命名，这时候会释放之前被占用的磁盘资源。
　　当时间到达配置的scan_frequency参数，将会重新启动为文件内容的收集。
　　如果在Havester关闭以后，移动或者删除了文件，Havester再次启动时，将会无法收集文件数据。
　　当需要关闭Harvester的时候，可以通过close_*配置项来控制。
什么是Prospector？
　　Prospector负责管理Harvsters，并且找到所有需要进行读取的数据源。如果input type配置的是log类型，Prospector将会去配置度路径下查找所有能匹配上的文件，然后为每一个文件创建一个Harvster。每个Prospector都运行在自己的Go routine里。
　　Filebeat目前支持两种Prospector类型：log和stdin。每个Prospector类型可以在配置文件定义多个。log Prospector将会检查每一个文件是否需要启动Harvster，启动的Harvster是否还在运行，或者是该文件是否被忽略（可以通过配置 ignore_order，进行文件忽略）。如果是在Filebeat运行过程中新创建的文件，只要在Harvster关闭后，文件大小发生了变化，新文件才会被Prospector选择到。
filebeat工作原理
　　Filebeat可以保持每个文件的状态，并且频繁地把文件状态从注册表里更新到磁盘。这里所说的文件状态是用来记录上一次Harvster读取文件时读取到的位置，以保证能把全部的日志数据都读取出来，然后发送给output。如果在某一时刻，作为output的ElasticSearch或者Logstash变成了不可用，Filebeat将会把最后的文件读取位置保存下来，直到output重新可用的时候，快速地恢复文件数据的读取。在Filebaet运行过程中，每个Prospector的状态信息都会保存在内存里。如果Filebeat出行了重启，完成重启之后，会从注册表文件里恢复重启之前的状态信息，让FIlebeat继续从之前已知的位置开始进行数据读取。
Prospector会为每一个找到的文件保持状态信息。因为文件可以进行重命名或者是更改路径，所以文件名和路径不足以用来识别文件。对于Filebeat来说，都是通过实现存储的唯一标识符来判断文件是否之前已经被采集过。
　　如果在你的使用场景中，每天会产生大量的新文件，你将会发现Filebeat的注册表文件会变得非常大。这个时候，你可以参考（the section called “Registry file is too large?edit），来解决这个问题。
如图：基于 Filebeat 的 ELK 集群架构
在这里插入图片描述

Linux下安装命令：
chkconfig是runlevel的系统服务管理。其中，chkconfig --add + 服务名，这里的服务名只能是yum安装服务，如 chkconfig --add httpd, 即把httpd服务加入到runlevel的系统服务管理。加入之后的默认情况是，httpd服务在6个启动级别下都是关闭的。如下：
[root@localhost ~]# chkconfig --list |grep httpd
httpd 0:off 1:off 2:off 3:off 4:off 5:off 6:off
配置filebeat
filebeat的配置文件主要为filebeat.yml文件，对于大多数的基本filebeat配置：
在这里插入图片描述
在这个例子中，探测器会收集/var/log/*.log的所有匹配文件，这意味这filebeat会收集所有的/paas/hsf/flk/logs/以及/gsg/logs/yuxc/*.log下以.log结尾的文件，此处还支持Golang Glob支持的所有模式。
在预定义级别的子目录中获取所有文件，可以使用这个配置：/var/log/*.log，这会找到/var/log下所有子目录中所有的以.log结尾的文件。但它并不会找到/var/log文件夹下的以.log结尾的文件。现在它还不能递归的在所有子目录中获取所有的日志文件。
在这里插入图片描述
在gsg/logs文件夹下新建一个log文件，插入数据

如果你设置输出到elasticsearch中，那么你需要在filebeat的配置文件中设置elasticsearch的IP地址与端口。

如果你设置输出到logstash中，那么你需要在filebeat的配置文件中设置logstash的IP地址与端口。
在这里插入图片描述
配置好后，即可启动filebeat，若要测试你的配置文件，切换到你安装好的filebeat的可执行文件的目录，然后在命令行运行以下选项：./filebeat -configtest -e ，确保您的配置文件在默认配置文件目录下。
定义输出到kafka
og.csdnimg.cn/20190823185041462.png)
启动
在这里插入图片描述