CentOS 7.6—部署企业级ELK日志分析系统
一:ELK日志分析系统简介
1.1:日志服务器
- 提高安全性
- 集中存放日志
- 缺陷
- 对日志的分析困难
1.2:EKL日志分析系统
- ELK日志分析系统是Logstash、Elasticsearch、Kibana开源软件的集合,对外是作为一个日志管理系统的开源方案,它可以从任何来源、任何格式进行日志搜索、分析与可视化展示
- 什么原因促使产生了ELK日志分析系统?
- 日志分析是运维工程师解决系统故障,发现问题的主要手段。日志主要包括系统日志、应用程序日志和安全日志。
- 系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志
可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。 - 通常,日志被分散的储存在不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法
查阅日志,即繁琐又效率低下。为此,我们可以使用集中化的日志管理,例如:开源的syslog,将所有服务器上的日志收集汇总。集中化管理日志后,日志的统计和检索又成为一件比较麻烦的事情,一般我们使用grep、awk和wc等Linux命令能实现检索和统计,但是对于更高要求的查询、排序和统计等,再加上庞大的机器数量,使用这样的方法依然难免有点力不从心。 - 开源实时日志分析ELK平台能够完美的解决我们上述的问题,ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成。
1.3:EKL的日志处理工作流程
-
工作流程:
- Logstash收集AppServer产生的Log,并存放到ElasticSearch集群中,而Kibana则从ES集群中查询数据生成图表,再返回给Browser。进行日志处理分析,一般需要经过以下几个步骤:
- 将日志进行集中化管理(beats)
- 将日志格式化(logstash)并输出到ElasticSearch
- 对格式化后的数据进行索引和存储(elasticsearch)
- 前端数据的展示(kibana)
二:Elasticsearch介绍
2.1:Elasticsearch的概述
- Elasticsearch,基于RESTful web接口。
- Elasticsearch是用Java开发的,提供了一个分布式多用户能力的全文搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
2.2:Elasticsearch核心概念
-
接近实时(NRT)
lasticsearch是一个接近实时的搜索平台,这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒) -
集群(cluster)
一个集群就是由一个或多个节点组织在一起,它们共同持有你整个的数据,并一起提供索引和搜索功能。其中一个节点为主节点,这个主节点是可以通过选举产生的,并提供跨节点的联合索引和搜索的功能。集群有一个唯一性标示的名字,默认是elasticsearch,集群名字很重要,每个节点是基于集群名字加入到其集群中的。因此,确保在不同环境中使用不同的集群名字。
一个集群可以只有一个节点。强烈建议在配置elasticsearch时,配置成集群模式。 -
节点(node)
节点就是一台单一的服务器,是集群的一部分,存储数据并参与集群的索引和搜索功能。像集群一样,节点也是通过名字来标识,默认是在节点启动时随机分配的字符名。当然,你可以自己定义。该名字也很重要,在集群中用于识别服务器对应的节点。节点可以通过指定集群名字来加入到集群中。默认情况,每个节点被设置成加入到elasticsearch集群。如果启动了多个节点,假设能自动发现对方,他们将会自动组建一个名为elasticsearch的集群。
-
索引(index)
一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群中,如果你想,可以定义任意多的索引。
●索引相对于关系型数据库的库。 -
类型(type)
在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。通常,会为具有一组共同字段的文档定义一个类型。比如说,我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中,你可以为用户数据定义一个类型,为博客数据定义另一个类型,当然,也可以为评论数据定义另一个类型。
●类型相对于关系型数据库的表 -
文档(document)
一个文档是一个可被索引的基础信息单元。比如,你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个订单的一个文档。文档以JSON(Javascript Object Notation)格式来表示,而JSON是一个到处存在的互联网数据交互格式。
在一个index/type里面,只要你想,你可以存储任意多的文档。注意,虽然一个文档在物理上位于一个索引中,实际上一个文档必须在一个索引内被索引和分配一个类型。
●文档相对于关系型数据库的列。 -
分片和副本(shards & replicas)
在实际情况下,索引存储的数据可能超过单个节点的硬件限制。如一个10亿文档需1TB空间可能不适合存储在单个节点的磁盘上,或者从单个节点搜索请求太慢了。为了解决这个问题,elasticsearch提供将索引分成多个分片的功能。当在创建索引时,可以定义想要分片的数量。每一个分片就是一个全功能的独立的索引,可以位于集群中任何节点上。-
分片的两个最主要原因:a. 水平分割扩展,增大存储量 b. 分布式并行跨分片操作,提高性能和吞吐量
-
分布式分片的机制和搜索请求的文档如何汇总完全是由elasticsearch控制的,这些对用户而言是透明的。
-
网络问题等等其它问题可以在任何时候不期而至,为了健康性,强烈建议要有一个故障切换机制,无论何种故障以防止分片或者节点不可用。
为此,elasticsearch让我们将索引分片复制一份或多份,称之为分片副本或副本。 -
副本也有两个最主要原因:
a. 高可用性,以应对分片或者节点故障。出于这个原因,分片副本要在不同的节点上。
b. ×××能,增大吞吐量,搜索可以并行在所有副本上执行。 -
总之,每个索引可以被分成多个分片。一个索引也可以被复制0次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和副本的数量可以在索引创建的时候指定。
在索引创建之后,你可以在任何时候动态地改变副本的数量,但是你事后不能改变分片的数量。
默认情况下,Elasticsearch中的每个索引被分片5个主分片和1个副本,这意味着,如果你的集群中至少有两个节点,你的索引将会有5个主分片和另外5个副本分片(1个完全拷贝),这样的话每个索引总共就有10个分片。
-
三:Logstash介绍
3.1:Logstash介绍
- 一款强大的数据处理工具
- 可实现数据传输、格式处理、格式化输出
- Logstash的理念很简单,它只做3件事情:
- Collect:数据输入
- Enrich:数据加工,如过滤,改写等
- Transport:数据输出
- Logstash是一个完全开源的工具,它可以对你的日志进行收集、过滤、格式处理、格式化输出,并将其存储,供以后使用(如,搜索)。
- Logstash由JRuby语言编写,基于消息(message-based)的简单架构,并运行在Java虚拟机(JVM)上。不同于分离的代理端(agent)或主机端(server),LogStash可配置单一的代理端(agent)与其它开源软件结合,以实现不同的功能。
3.2:Logstash主要组件
- Shipper:日志收集者 。负责监控本地日志文件的变化,及时把日志文件的最新内容收集起来。通常,远程代理端(agent)只需要运行这个组件即可;
- Indexer:日志存储者。负责接收日志并写入到本地文件。
- Broker:日志Hub。负责连接多个Shipper和多个Indexer
- Search and Storage:允许对事件进行搜索和存储;
- Web Interface:基于Web的展示界面
- 正是由于以上组件在LogStash架构中可独立部署,才提供了更好的集群扩展性
3.3:LogStash主机分类
- 代理主机(agent host):作为事件的传递者(shipper),将各种日志数据发送至中心主机;只需运行Logstash 代理(agent)程序;
- 中心主机(central host):可运行包括中间转发器(Broker)、索引器(Indexer)、搜索和存储器(Search and Storage)、Web界面端(Web Interface)在内的各个组件,以实现对日志数据的接收、处理和存储
四:Kibana介绍
4.1:Kibana概念
- 一个针对elasticsearch的开源分析及可视化平台
- 搜索、查看存储在elasticsearch索引中的数据
- 通过各种图表进行高级数据分析及展示
- Kibana让海量数据更容易理解。它操作简单,基于浏览器的用户界面可以快速创建仪表板(dashboard)实时显示Elasticsearch查询动态。设置Kibana非常简单。无需编写代码,几分钟内就可以完成Kibana安装并启动Elasticsearch索引监测。
4.2:Kibana主要功能
- Elasticsearch无缝之集成。Kibana架构为Elasticsearch定制,可以将任何结构化和非结构化数据加入Elasticsearch索引。Kibana还充分利用了Elasticsearch强大的搜索和分析功能。
- 整合你的数据。Kibana能够更好地处理海量数据,并据此创建柱形图、折线图、散点图、直方图、饼图和地图。
- 复杂数据分析。Kibana提升了Elasticsearch分析能力,能够更加智能地分析数据,执行数学转换并且根据要求对数据切割分块。
- 让更多团队成员受益。强大的数据库可视化接口让各业务岗位都能够从数据集合受益。
- 接口灵活,分享更容易。使用Kibana可以更加方便地创建、保存、分享数据,并将可视化数据快速交流。
- 配置简单。Kibana的配置和启用非常简单,用户体验非常友好。Kibana自带Web服务器,可以快速启动运行。
- 可视化多数据源。Kibana可以非常方便地把来自Logstash、ES-Hadoop、Beats或第三方技术的数据整合到Elasticsearch,支持的第三方技术包括Apache Flume、Fluentd等。
- 简单数据导出。Kibana可以方便地导出感兴趣的数据,与其它数据集合并融合后快速建模分析,发现新结果。
五:部署EKL
5.1:案例拓扑
主机名/IP地址 | 操作系统 | 主要软件 |
---|---|---|
node1:20.0.0.129 | centos 7.6 | elasticsearch |
node2:20.0.0.55 | centos 7.6 | elasticsearch |
Apache:20.0.0.51 | centos 7.6 | Logstash |
Kibana:20.0.0.52 | centos 7.6 | Kibana |
5.2:需求描述
- 配置EKL日志分析集群
- 使用Logstash收集日志
- 使用Kibana查看分析日志
5.3:实验过程
5.3.1:配置elasticsearch环境
- 更改主机名
[root@localhost ~]# hostnamectl set-hostname node1
[root@localhost ~]# su
- 关闭防火墙和核心防护
[root@node1 ~]# systemctl stop firewalld.service
[root@node1 ~]# iptables -F
- 设置本地主机映射文件,node1和node2节点操作
[root@node1 ~]# vim /etc/hosts
'在末尾插入'
20.0.0.129 node1
20.0.0.51 node2
[root@node1 ~]# ping node2
PING node2 (20.0.0.51) 56(84) bytes of data.
64 bytes from node2 (20.0.0.51): icmp_seq=1 ttl=64 time=0.696 ms
64 bytes from node2 (20.0.0.51): icmp_seq=2 ttl=64 time=0.230 ms
- 查看JAVA环境(centos 7.6自带的)
[root@node1 ~]# java -version
openjdk version "1.8.0_181"
OpenJDK Runtime Environment (build 1.8.0_181-b13)
OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode)
5.3.2:部署elasticsearch
- 安装elasticsearch—rpm包
[root@node1 ~]# cd /opt/
[root@node1 opt]# rz -E
rz waiting to receive.
[root@node1 opt]# ls
elasticsearch-5.5.0.rpm logstash-5.5.1.rpm rh
elasticsearch-head.tar.gz node-v8.2.1.tar.gz
kibana-5.5