深度剖析Elasticsearch的bulk api使用以及底层原理

一、api

1、概念

就是批量操作,将多条PUT/POST/DELETE命令合并成一个bulk命令进行操作,节省代码量也提高性能。

2、语法

PUT /_bulk
{"action":{"metadata"}}
{"data"}

action取值(如下是常用的):
index:普通的PUT操作,可以是创建文档,也可以是全量替换
create:PUT /index/_doc/id/_create,强制创建
delete:删除一个文档,只要1个metadata就可以了,无需{“data”}部分
update:执行的partial update操作


metadata:json,对应的是这部分内容 PUT /product/_doc/1


data:具体操作内容的json,比如

{
   "name": "huawei shouji",
   "desc": "4G 5G",
   "tags": ["shouji"]
}

3、Demo

3.1、需求一

比如要创建一个index名称为test_index1且_id为1的一个document,document里面包含如下两个字段

{
	"test_field1" : "test1", 
	"test_field2" : "test2"
}
PUT /_bulk
{"index" : {"_index" : "test_index1", "_id" : "1"}}
{"test_field1" : "test1", "test_field2" : "test2"}

查看数据进行验证

GET /test_index1/_search
{
  "query": {
    "match_all": {}
  }
}

结果:

{
  "took" : 5,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "test_index1",
        "_type" : "test_type",
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "test_field1" : "test1",
          "test_field2" : "test2"
        }
      }
    ]
  }
}

3.2、需求二

综合应用

POST /_bulk
{"delete":{"_index":"test_index2","_id":"1"}}
{"create":{"_index":"test_index2","_id":"2"}}
{"test_field":"test2"}
{"index":{"_index":"test_index2","_id":"3"}}
{"test_field":"test3"}
{"update":{"_index":"test_index2","_id":"2","retry_on_conflict":3}}
{"doc":{"test_field2":"bulk test"}}

返回结果是对每一条操作都做一个结果,彼此之间互不影响,也就是说比如第一条delete报错了,不会影响下面的语句,粗糙理解成“没mysql的事务控制”。但是再返回结果里,会告诉你异常日志。具体返回结果如下,比如第一个delete是404了。:

{
  "took" : 394,
  "errors" : false,
  "items" : [
    {
      "delete" : {
        "_index" : "test_index2",
        "_type" : "_doc",
        "_id" : "1",
        "_version" : 1,
        "result" : "not_found",
        "_shards" : {
          "total" : 2,
          "successful" : 1,
          "failed" : 0
        },
        "_seq_no" : 0,
        "_primary_term" : 1,
        "status" : 404
      }
    },
    {
      "create" : {
        "_index" : "test_index2",
        "_type" : "_doc",
        "_id" : "2",
        "_version" : 1,
        "result" : "created",
        "_shards" : {
          "total" : 2,
          "successful" : 1,
          "failed" : 0
        },
        "_seq_no" : 1,
        "_primary_term" : 1,
        "status" : 201
      }
    },
    {
      "index" : {
        "_index" : "test_index2",
        "_type" : "_doc",
        "_id" : "3",
        "_version" : 1,
        "result" : "created",
        "_shards" : {
          "total" : 2,
          "successful" : 1,
          "failed" : 0
        },
        "_seq_no" : 2,
        "_primary_term" : 1,
        "status" : 201
      }
    },
    {
      "update" : {
        "_index" : "test_index2",
        "_type" : "_doc",
        "_id" : "2",
        "_version" : 2,
        "result" : "updated",
        "_shards" : {
          "total" : 2,
          "successful" : 1,
          "failed" : 0
        },
        "_seq_no" : 3,
        "_primary_term" : 1,
        "status" : 200
      }
    }
  ]
}

二、补充

1、格式

比如严格遵守如下格式,多一个回车符号都会报错

PUT /_bulk
{"action":{"metadata"}}
{"data"}

比如如下会报错:

PUT /_bulk
{"index" : {"_index" : "test_index1", "_id" : "1"}}
{
  "test_field1" : "test1", "test_field2" : "test2"
  
}

返回结果

{
  "error" : {
    "root_cause" : [
      {
        "type" : "illegal_argument_exception",
        "reason" : "Malformed action/metadata line [3], expected START_OBJECT but found [VALUE_STRING]"
      }
    ],
    "type" : "illegal_argument_exception",
    "reason" : "Malformed action/metadata line [3], expected START_OBJECT but found [VALUE_STRING]"
  },
  "status" : 400
}

2、优化

bulk size建议大小:

bulk request会加载到内存里,如果太大的话,性能反而会下降,因此需要反复尝试一个最佳的bulk size。一般从1000~5000条数据开始,尝试逐渐增加,另外,如果看大小的话,最好是在515MB之间。

三、底层原理

1、问题

为什么bulk api那么的丑陋不堪?换行、格式化都会报错,比如那么丑陋的格式才能执行?

2、答案

因为bulk中的每组操作(index/create/delete/update)都可能要转发到不同的node的shard上去执行。
如果采取优雅的json格式,如下:

[
  {
    "action" : {},
    "data" : {}
  }
]

首先,整个可读性非常棒,读起来很爽,但是ES拿到那种标准格式的JSON串以后,要按照下述流程去进行处理
(1)将JSON数组解析为JSONArray对象,这个时候,整个数据,就会在内存中出现一份一模一样的拷贝,一份数据是JSON文本,一份数据是JSONArray对象。
(2)解析JSON数组里的每个JSON,对每个请求中的document进行路由
(3)为路由到同一个shard上的多个请求,创建一个请求数组。
(4)将这个请求数组序列化
(5)将序列化后的请求数组发送到对应的节点上去

再看这种丑陋的bulk json格式

{"action" : {"meta"}}
{"data"}
{"action" : {"meta"}}
{"data"}

(1)不用将其转换为JSON对象,不会出现内存中的相同数据的拷贝,直接按照换行符切割JSON
(2)对每两个一组的json,读取meta,进行document路由
(3)直接将对应的json发送到node上去

两种格式对比:
(1)优雅格式:
耗费更多的内存,更多的JVM GC开销
我们之前提到过 bulk size最佳大小的问题,一般建议说在几千条那样,然后大小在10MB左右,所以说,可怕的事情来了,假设说现在100个bulk请求发送到了一个节点上去,然后每个请求是10MB,100个请求就是1000MB=1GB。然后每个请求的json都copy一份为JSONArray对象,此时内存中的占用就会翻倍,就会占用2GB内存,甚至还不止,因为弄成JSONArray后,还可能会多搞一些其他的数据结构,2GB+的内存占用。
占用更多的内存可能就会积压其他请求的内存使用量,比如说最重要的搜索请求,分析请求,等等,此时就可能会导致其他请求的性能急速下降
另外的话,占用内存更多,就会导致ES的java虚拟机的垃圾回收次数更多,更频繁,每次要回收的垃圾对象更多,耗费的时间更多,导致ES的java虚拟机停止工作线程的时间更多。

(2)丑陋的JSON格式:
最大的优势在于,不需要将JSON数组解析为一个JSONArray对象,形成一份大数据的拷贝,浪费内存空间,尽可能的保证性能。

微信公众号
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

【原】编程界的小学生

没有打赏我依然会坚持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值