ElasticSearch 实战：管道（pipeline）的使用

用心去追梦

于 2024-04-03 10:31:04 发布

阅读量947

点赞数 3

文章标签： elasticsearch jenkins 大数据

本文链接：https://blog.csdn.net/qq_33240556/article/details/137334060

版权

Elasticsearch 中的管道（Pipeline）是一种强大的数据预处理机制，用于在文档被索引前对它们执行一系列有序的处理步骤。以下是一系列关于管道使用的实战操作和示例：

一、管道创建

1. 定义JSON配置**：

编写管道配置，指定处理器（Processor）及其参数。例如，创建一个包含 trim（去除字符串首尾空格）、remove（删除字段）和 date（解析日期）处理器的管道：

PUT _ingest/pipeline/my_pipeline
{
  "description": "A pipeline to clean and enrich documents",
  "processors": [
    {
      "trim": {
        "field": "message"
      }
    },
    {
      "remove": {
        "field": "unused_field"
      }
    },
    {
      "date": {
        "field": "event_timestamp",
        "target_field": "@timestamp",
        "formats": ["ISO8601"]
      }
    }
  ]
}

2. 处理器链**：

管道中的处理器按照定义顺序执行，每个处理器处理后的文档作为下一个处理器的输入。处理器可以对文档进行各种变换，如字段值修改、新增字段、数据格式转换、条件逻辑处理等。

二、管道应用

1. 索引请求**：

在索引文档时指定管道名称，让摄取节点使用该管道处理文档：

PUT my_index/_doc/1?pipeline=my_pipeline
{
  "message": "  Hello, World!  ",
  "unused_field": "Remove me",
  "event_timestamp": "2024-05-01T12:00:00Z"
}

2. 默认管道**：

设置索引的 index.default_pipeline 属性，让所有进入该索引的文档自动使用指定的管道：

PUT my_index
{
  "settings": {
    "index.default_pipeline": "my_pipeline"
  }
}

3. 批量操作**：

在批量索引（_bulk API）中指定管道：

POST _bulk?pipeline=my_pipeline
{"index":{"_index":"my_index","_id":"1"}}
{"message":"  Hello, World!  ","unused_field":"Remove me","event_timestamp":"2024-05-01T12:00:00Z"}

三、常用处理器

Elasticsearch 提供了多种处理器类型，包括但不限于：

Trim：去除字符串首尾空格。
Remove：删除文档中的某个字段。
Date：解析和格式化日期字段。
Grok：使用正则表达式模式匹配和提取文本数据。
User Agent：解析用户代理字符串，提取浏览器、操作系统、设备信息。
GeoIP：根据IP地址获取地理位置信息。
Rename：重命名字段。
Set：设置或更新字段值。
Script：使用Painless脚本对文档进行自定义处理。

四、管道调试与监控

1. 模拟处理**：

使用 simulate API 模拟文档通过管道的处理过程，查看处理前后文档的变化：

POST _ingest/pipeline/_simulate
{
  "pipeline": {
    "processors": [
      ...
    ]
  },
  "docs": [
    {
      "_source": {
        "message": "  Hello, World!  ",
        ...
      }
    }
  ]
}