前言:为什么用到ELK?
一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志收集系统,将所有节点上的日志统一收集,管理,访问。
一般大型系统是一个分布式部署的架构,不同的服务模块部署在不同的服务器上,问题出现时,大部分情况需要根据问题暴露的关键信息,定位到具体的服务器和服务模块,构建一套集中式日志系统,可以提高定位问题的效率。
一个完整的集中式日志系统,需要包含以下几个主要特点:
- 收集-能够采集多种来源的日志数据
- 传输-能够稳定的把日志数据传输到中央系统
- 存储-如何存储日志数据
- 分析-可以支持 UI 分析
- 警告-能够提供错误报告,监控机制
ELK提供了一整套解决方案,并且都是开源软件,之间互相配合使用,完美衔接,高效的满足了很多场合的应用。目前主流的一种日志系统。
一、ELK简介:
ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。
Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。
Logstash 主要是用来日志的搜集、分析、过滤日志的工具,支持大量的数据获取方式。一般工作方式为c/s架构,client端安装在需要收集日志的主机上,server端负责将收到的各节点日志进行过滤、修改等操作在一并发往elasticsearch上去。
Kibana 也是一个开源和免费的工具,Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮助汇总、分析和搜索重要数据日志。
Filebeat隶属于Beats。目前Beats包含四种工具:
-
- Packetbeat(搜集网络流量数据)
- Topbeat(搜集系统、进程和文件系统级别的 CPU 和内存使用情况等数据)
- Filebeat(搜集文件数据)
- Winlogbeat(搜集 Windows 事件日志数据)
二、ELK简单架构图
三、日志服务器的优缺点
优点:
- 提高安全性
- 集中存放日志
缺点:
- 对日志的分析困难
3.1、Logstash管理包含四种工具
- Packetbeat ( 搜集网络流量数据)
- Topbeat(搜集系统、进程和文件系统级别的CPU和内存使用情况等数据)
- Filebeat (搜集文件数据),相较于Logstash是轻量级工具
- Winlogbeat (搜集Windows事件日志数据)
3.2、日志处理步骤
- Logstash收集AppServer产生的Log,并将log进行集中化管理
- 将日志格式化(Logstash) 并存放到ElasticSearch集群中
- 对格式化后的数据进行索引|和存储( Elasticsearch)
- Kibana则从Es集群中查询数据生成图表,再返回给browsers
四、Elasticsearch的基础核心概念
- 接近实时(NRT)
elasticsearch是一个接近实时的搜索平台,这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)
- 集群(cluster)
一个集群就是由一个或多个节点组织在一起,它们共同持有整个的数据,并一起提供索引和搜索功能。其中一个节点为主节点,这个主节点是可以通过选举产生的,并提供跨节点的联合索引和搜索的功能。集群有一个唯一性标示的名字,默认是elasticsearch
集群名字很重要,每个节点是基于集群名字加入到其集群中的。因此,确保在不同环境中使用不同的集群名字。一个集群可以只有一个节点。强烈建议在配置elasticsearch时, 配置成集群模式。es 具有集群机制,节点通过集群名称加入到集群中,同时在集群中的节点会有一个自己的唯一 身份标识(自己的名称) .
- 节点(node)
节点就是一台单一的服务器,是集群的一部分,存储数据并参与集群的索引和搜索功能。像集群一样,节点也是通过名字来标识,默认是在节点启动时随机分配的字符名。当然,你可以自己定义。该名字也很重要,在集群中用于识别服务器对应的节点。
- 索引
一个索引就是一个拥有积分相似特征的文档的集合,由一个名字来标识(必须全部是小写字母),索引相对于关系型数据库的库
- 类型
在一个索引种,可以定义一种或多种类型,一个类型是索引的一个逻辑上的分类/分区,其语义完全自定义。类型相对于关系型数据库的表
- 文档
一个文档是一个可被索引的基础信息单元,文档相对于关系型数据库的列
- 分片和副本
①分片的主要原因
a:水平分割扩展、增大存储量
b:分布式并行分片操作,提高性能和吞吐量
②副本的主要原因
a: 高可用性,以应对分片或节点故障
b: qps性能、增大吞吐量,搜索可以并行在所有副本上执行
③分片和副本的数量可以在索引创建的时候指定,在索引创建之后,可以动态地改变副本的数量,但是不能改变分片的数量
五、Logstash介绍
Logstash由JRuby语言编写,基于消息(message-based) 的简单架构,并运行在Java虚拟机(JVM)上。LogStash可配置单一的代理端(agent) 与其它开源软件结合,以实现不同的功能。
Logstash的理念很简单,它只做3件事情:Collect:数据输入、Enrich:数据加工,1如过滤,改等、Transport:数据输出( 被其他模块进行调用)
1. logStash的主要组件
①:Shipper(日志收集者):负责监控本地日志文件的变化,及时把日志文件的最新内容收集起来。通常,远程代理端(agent)只需要运行这个组件即可;
②:Indexer(日志存储者):负责接收日志并写入到本地文件。
③:Broker(日志Hub):负责连接多个Shipper和多个Indexer
④:Search and Storage(搜索和存储器):允许对事件进行搜索和存储;
⑥:Web Interface(web界面端):基于Web的展示界面
2. LogStash主机分类
①:代理主机(agent host) :作为事件的传递者(shipper),将各种日志数据发送至中心主机;只需运行Logstash代理( agent)
②:程序中心主机(central host) :可运行包括中间转发器(Broker) 、索引器(Indexer) 、搜索和存储器( Search and
Storage )、web界面端(web Interface)在内的各个组件,以实现对日志数据的接收、处理和存储
六、Kibana介绍
Kibana是一个 针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。
使用Kibana,可以通过各种图表进行高级数据分析及展示。Kibana让海量数据更容易理解。它操作简单,基于浏览器的用户界面可以快速创建仪表板(dashboard) 实时显示Elasticsearch查询动态。设置Kibana非常简单。无需编写代码,几分钟内就可
以完成Kibana安装并启动Elasticsearch索引监测。
主要功能:
- Elasticsearch无缝之集成。Kibana架构为Elast icsearch定制, 可以将任何结构化和非结构化数据加入Elast icsearch索引。Kibana还充分利用了Elasticsearch强大的搜索和分析功能。
- 整合你的数据。Kibana能够更好地处理海量数据,并据此创建柱形图、折线图、散点图、直方图、饼图和地图。
- 复杂数据分析。Kibana提升了Elasticsearch分析能力,能够更加智能地分析数据,执行数学转换并且根据要求对数据切割分块。
- 让更多团队成员受益。强大的数据库可视化接口让各业务岗位都能够从数据集合受益。
- 接口灵活,分享更容易。使用Kibana可以更加方便地创建、保存、分享数据,并将可视化数据快速交流。
- 配置简单。Kibana的配置和启用非常简单,用户体验非常友好。Kibana自带Web服务器,可以快速启动运行。