ELK企业级日志分析系统_elk日志分析系统-CSDN博客

是基于Lucene (一个全文检索引擎的架构) 开发的分布式存储检索引擎，用来存储各类日志。
Elasticsearch 是用 Java 开发的，可通过 RESTful Web 接口，让用户可以通过浏览器与Elasticsearch 通信。
Elasticsearch是一个实时的、分布式的可扩展的搜索引擎，允许进行全文、结构化搜索，它通常用于索引和搜索大容量的日志数据，也可用于搜索许多不同类型的文档。

Kiabana

Kibana 通常与 Elasticsearch 一起部署，Kibana 是 Elasticsearch的一个功能强大的数据可视化 Dashboard，Kibana 提供图形化的 web 界面来浏览 Elasticsearch日志数据，可以用来汇总、分析和搜索重要数据。

Logstash

作为数据收集引擎。它支持动态的从各种数据源搜集数据，并对数据进行过滤、分析、丰富、统一格式等操作，然后存储到用户指定的位置，一般会发送给 Elasticsearch。Logstash 由 Ruby 语言编写，运行在 Java 虚拟机 (JVM) 上，是一款强大的数据处理工具，可以实现数据传输、格式处理、格式化输出。Logstash 具有强大的插件功能，常用于日志处理。

可以添加的其它组件

Eilebeat: 轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装并指定目录与日志格式，Eilebeat 就能快速收集数据，并发送给 logstashFilebeat，进行解析，或是直接发给 Elasticsearch 存储，性能上相比运行于 JVM 上的 logstash优势明显，是对它的替代。常应用于 EELK 架构当中。

filebeat 结合 loqstash 带来好处:

通过 Logstash 具有基于磁盘的自适应缓冲系统，该系统将吸收传入的吞吐量，从而减轻Elasticsearch 持续写入数据的压力
从其他数据源(例如数据库，s3对象存储或消息传递队列) 中提取
将数据发送到多个目的地，例如S3，HDES (Hadoop分布式文件系统) 或写入文件
使用条件数据流逻辑组成更复杂的处理管道

缓存/消息队列 (redis、kafka、Rabbitmo等)

可以对高并发日志数据进行流量削峰和缓冲，这样的缓冲可以一定程度的保护数据不丢失，还可以对整个架构进行应用解耦。

Fluentd

是一个流行的开源数据收集器。由于 logstash 太重量级的缺点，Logstash性能低、资源消耗比较多等问题，随后就有 Fluentd 的出现。相比较 logstash，Eluentd更易用、资源消耗更少、性能更高，在数据处理上更高效可靠，受到企业欢迎，成为 logstash的一种替代方案，常应用于 EEK 架构当中。在 Kubernetes 集群中也常使用 EEK作为日志数据收集的方案。
在 Kubernetes 集群中一般是通过 DaemonSet 来运行 Eluentd，以便它在每个 Kubernetes工作节点上都可以运行一个 Pod。它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch集群，在该集群中对其进行索引和存储。
它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch
集群，在该集群中对其进行索引和存储。

5、为什么要使用ELK

日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。
往往单台机器的日志我们使用grep、awk等工具就能基本实现简单分析，但是当日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如: 开源的syslog，将所有服务器上的日志收集汇总。集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。
一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。

6、完整日志系统基本特征

收集: 能够采集多种来源的日志数据
传输:能够稳定的把日志数据解析过滤并传输到存储系统
存储:存储日志数据
分析:支持 UI 分析
警告:能够提供错误报告，监控机制

7、ELK的工作原理

在所有需要收集日志的服务器上部署Logstash; 或者先将日志进行集中化管理在日志服务器上，在日志服务器上部署 Logstash。
Logstash 收集日志，将日志格式化并输出到 Elasticsearch 群集中
Elasticsearch 对格式化后的数据进行索引和存储。
Kibana 从 ES 群集中查询数据生成图表，并进行前端数据的展示。

8、总结

logstash作为日志搜集器，从数据源采集数据，并对数据进行过滤，格式化处理，然后交由Elasticsearch存储，kibana对日志进行可视化处理。

input 数据采集
output 数据过滤
filter 数据输出

二、ELK集群之部署elasticsearch集群部署

主机	角色
Node1节点（2c/4G) :node1:192.168.157.50	Elasticsearch ； Kibana
Node2 节点（2c/4G):node2：192.168.157.100	Elasticsearch
Apache节点: apache：192.168.157.65	Logstash ; Apache

1、环境准备

更改主机名，配置域名解析，查看java环境

[root@node1]# systemctl stop firewalld
[root@node1]# setenforce 0
[root@node2]# systemctl stop firewalld
[root@node2]# setenforce 0

---------------------------
#修改主机名
Node1 节点： hostnamectl  set-hostname node1
Node2 节点： hostnamectl  set-hostname node2

#node1，node2配置主机名映射
 echo "192.168.157.50 node1" >> /etc/hosts
 echo "192.168.157.100 node2" >> /etc/hosts
 
 ----------------
#node1，node2查看java环境
 [root@node1 ~]# java -version
 openjdk version "1.8.0_131"
 OpenJDK Runtime Environment (build 1.8.0_131-b12)
 OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)

2、部署elasticsearch 软件

#安装 elasticsearch-rpm 包
#上传elasticsearch-5.5.0.rpm 到/opt目录下
cd /opt
rpm -ivh elasticsearch-5.5.0.rpm


#加载系统服务
systemctl  daemon-reload
systemctl enable elasticsearch.service

2.1 修改elasticsearch 主配置文件

[root@node1 opt]#cp /etc/elasticsearch/elasticsearch.yml  /etc/elasticsrch.yml.bak

[root@node1 opt]# vim /etc/elasticsearch/elasticsearch.yml

[root@node1 opt]# grep -nv "^#" /etc/elasticsearch/elasticsearch.yml
#17行，取消注释，指定集群名
17:cluster.name: my-elk-cluster   

#23行：取消注释，指定节点名。node1节点为node1，node2节点为node2
23:node.name: node1

#33行：取消注释，指定数据存放路径(/data/elk_data目录需要自己创建)
33:path.data: /data/elk_data

#37行：取消注释，指定日志存放路径
37:path.logs: /var/log/elasticsearch/

#43: 取消注释，改为在启动时不锁定内存
#内存锁：在启动时预估需要多少内存，然后将这些内存锁定，其他服务就无法使用这些内存.
43:bootstrap.memory_lock: false

#55: 取消注释，设置监听地址，0.0.0.0 代表所有地址
55:network.host: 0.0.0.0

#59： 取消注释，ES服务的默认监听端口为 9200
59:http.port: 9200

#68： 取消注释，集群发现通过单播时间，指定要发现的节点node1,node2
68:discovery.zen.ping.unicast.hosts: ["node1","node2"]

#过滤出不是以#开头的行　
[root@node1 opt]# grep -v "