Elasticsearch：创建 Ingest pipeline

Elastic 中国社区官方博客

已于 2022-07-12 08:56:43 修改

阅读量5.5k

点赞数 1

分类专栏： Elastic Kibana Elasticsearch 文章标签： elasticsearch 大数据数据库

于 2020-09-03 10:53:35 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/UbuntuTouch/article/details/108376037

版权

Elastic 同时被 3 个专栏收录

1885 篇文章

订阅专栏

Elasticsearch

1284 篇文章

订阅专栏

Kibana

186 篇文章

订阅专栏

在 Elasticsearch 针对数据进行分析之前，我们必须针对数据进行摄入。在摄入的过程中，我们需要对数据进行加工，这其中包括非结构化数据转换为结构化数据，数据的转换，丰富，删除，添加新的字段等等一系列的工作。针对目前 Elastic 公司所提供的工具来看，我们有三种方法来针对数据进行加工：Logstash, Beats processors 以及 Ingest pipeline。

在之前的文章 “Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica”，我们讨论了 Elasticsearch 节点可以有不同的角色，主要重要的是 master、data 和 ingest（在 Elastic Stack 7.9 版本之后，有更多的节点角色）。将摄取组件与其他组件分开的想法是创建一个更稳定的集群，因为重新处理文档时可能出现问题（主要是由于摄入部分使用的自定义插件，这可能需要重新启动摄入节点才能更新）。为了创建一个更稳定的集群，摄入节点应该由主节点（也可能与数据节点）隔离，以防出现一些问题，例如由于附件插件等插件导致的崩溃以及由于复杂的高负载类型操作。

摄入节点可以在简单场景中替换 Logstash 安装。针对 Logstash 和 Ingest pipeline 这两种方法各有优缺点：

Logstash：

是一种开源的 Elastic Stack ETL （Extract, Transform, Load）引擎
非常强大，并且有很多的 inputs/filters/outputs 来供我们选择
可以很方便地和很多外部的服务进行整合并进行数据丰富
必须在 JVM 环境中运行
缺点是比较难以扩展，资源消耗比较大，通常需要专有的服务器来完成

Ingest pipeline:

由专门的 Elasticsearch ingest node 来完成
可以很方便地进行扩展
支持很多的 processors

在今天的文章中，我们将介绍如何创建一个 ingest pipeline。如果你对 pipeline 还不是很熟的话，请参阅我之前的文章：

我将着重介绍如何使用 Kibana UI 来创建一个 ingest pipeline。在 Kibana 中，它提供了一个 UI 来对我们的 pipeline 进行管理，你可以：

查看已经存在的所有 pipeline
删除/编辑已经存在的 pipeline
创建新的 pipeline
用一些定制的文档来测试你的 pipeline

当我们的数据进入到 Elastic 集群中，并指定需要用到的 Pipeline，那么 Elasticsearch 中的 ingest node 将会帮我们安装规定的 processor 顺序来执行对数据的操作和处理。这在某种程度上方便了我们许多对集群的部署。如果我们单独部署一个 Logstash 有时没有那么多的灵活性。我们可以通过编程的方式随时修改这个 pipeline。

展示

我们首先打开 Kibana 界面：

如上图所示，它展示了目前我们已经创建好的 pipeline。大家也许很好奇，你没有创建上面的 filebeat 为开头的 pipeline，但是为什么上面有显示呢？这些 filebeat 的 pipeline 是我们在使用 filebeat setup 命令时生成的。具体可以参照我之前的教程 “Beats 入门教程（二）”。

点击上面的 “Create a pipeline” 按钮：