ElasticSearch 实战：使用bulk进行批量增删改

用心去追梦

于 2024-03-30 10:32:04 发布

阅读量626

点赞数 3

文章标签： elasticsearch jenkins 大数据

本文链接：https://blog.csdn.net/qq_33240556/article/details/137167508

版权

在 Elasticsearch 中，bulk API 用于一次性执行多个文档的创建（index）、更新（update）、删除（delete）操作，极大地提高了数据操作的效率。以下是使用 bulk API 进行批量增删改的实战步骤：

1. 请求格式

bulk 请求采用 POST 方法，发送到 <index>/_bulk 端点。请求体由多行组成，每行表示一个操作指令，每两个操作指令之间用换行符（\n）分隔。每个操作指令由两部分组成：

操作头（Action Line）：描述操作类型（index、create、update 或 delete）、索引名、类型名（对于 Elasticsearch 7.x 及更高版本，通常为 _doc）和文档 ID。所有这些信息以 JSON 对象的形式提供，并以换行符结束。
操作数据（Data Line）：对于 index、create 和 update 操作，包含要索引、创建或更新的文档内容（即 _source）。对于 delete 操作，这一行可以省略。同样以换行符结束。

示例操作头：

{ "index": { "_index": "my_index", "_type": "_doc", "_id": "1" } }\n
{ "update": { "_index": "my_index", "_type": "_doc", "_id": "2" } }\n
{ "delete": { "_index": "my_index", "_type": "_doc", "_id": "3" } }\n

示例操作数据：

{ "field1": "value1", "field2": "value2" }\n
{ "doc": { "field1": "new_value1" } }\n

2. 示例请求

假设您要执行以下操作：

创建一个新的文档，ID 为 1，内容为 { "field1": "value1", "field2": "value2" }。
更新 ID 为 2 的文档，将 field1 的值改为 "new_value1"。
删除 ID 为 3 的文档。

对应的 bulk 请求如下：

curl -X POST "http://localhost:9200/_bulk" -H 'Content-Type: application/x-ndjson' --data-binary '
{ "index": { "_index": "my_index", "_type": "_doc", "_id": "1" } }
{ "field1": "value1", "field2": "value2" }

{ "update": { "_index": "my_index", "_type": "_doc", "_id": "2" } }
{ "doc": { "field1": "new_value1" } }

{ "delete": { "_index": "my_index", "_type": "_doc", "_id": "3" } }
'

这里使用了 --data-binary 选项和 application/x-ndjson 内容类型，以确保换行符正确传递给 Elasticsearch。

3. 响应格式

响应体包含一个操作结果数组，与请求中的顺序对应，每个元素是一个对象，包含操作结果：

_index: 文档所在的索引名。
_type: 文档类型（对于 Elasticsearch 7.x 及更高版本，通常为 _doc）。
_id: 文档 ID。
status: HTTP 状态码，表示操作是否成功。200 表示成功，404 表示文档未找到（对于 update 或 delete），其他状态码表示其他错误。
error: （如果存在）包含错误信息的对象。
result: 对于 index 和 create，为 created 或 updated；对于 delete，为 deleted。
_version: 文档版本号。

示例响应：

{"took":3,"errors":false,"items":[{"index":{"_index":"my_index","_type":"_doc","_id":"1","status":201,"result":"created","_shards":{"total":2,"successful":1,"failed":0},"_seq_no":0,"_primary_term":1}},{"update":{"_index":"my_index","_type":"_doc","_id":"2","status":200,"result":"updated","_shards":{"total":2,"successful":1,"failed":0},"_seq_no":1,"_primary_term":1}},{"delete":{"_index":"my_index","_type":"_doc","_id":"3","status":200,"result":"deleted","_shards":{"total":2,"successful":1,"failed":0},"_seq_no":2,"_primary_term":1}}]}

4. 注意事项

批量大小：尽管 bulk 请求可以包含大量操作，但应适当控制批量大小以避免内存溢出或长时间阻塞。通常建议每个 bulk 请求包含几千到几万条操作。
错误处理：即使 bulk 请求中的某些操作失败，成功的操作仍会被执行。响应中的 errors 字段表明是否有任何操作失败，需要检查 items 数组中的每个操作结果来确定哪些操作成功、哪些失败。
性能优化：为充分利用 bulk API 的性能优势，建议将多个操作合并到一个请求中，尽量避免频繁发送小批量请求。同时，确保操作数据（特别是 _source）压缩后再发送，以减少网络传输量。