ElasticSearch6.7使用_delete_by_query产生版本冲突(version conflict)问题

环境:ElasticSearch6.7
问题产生的原因
对某个index的数据进行删除,删除的数据量在千万级别。删除过程中产生版本冲突。
删除脚本如下:

POST /ads_lading_trade_brief_es_02/_delete_by_query
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "country": "CR"
          }
        },
        {
          "range": {
            "by_date": {
              "gte": "2000-01-01",
              "lte": "2015-12-31"
            }
          }
        }
      ]
    }
  }
}

原因如下:
在执行_delete_by_query期间,为了删除匹配到的所有文档,多个搜索请求是按顺序执行的。每次找到一批文档时,将会执行相应的批处理请求来删除找到的全部文档。如果搜索或者批处理请求被拒绝,_delete_by_query根据默认策略对被拒绝的请求进行重试(最多10次)。达到最大重试次数后,会造成_delete_by_query请求中止,并且会在failures字段中响应 所有的故障。已经删除的仍会执行。换句话说,该过程没有回滚,只有中断。
在第一个请求失败引起中断,失败的批处理请求的所有故障信息都会记录在failures元素中;并返回回去。因此,会有不少失败的请求。
如果你想计算有多少个版本冲突,而不是中止,可以在URL中设置为conflicts=proceed或者在请求体中设置"conflicts": “proceed”。
问题解决

  1. 通过上述分析,修改脚本,重新删除,此时脚本如下:
POST /ads_lading_trade_brief_es_02/_delete_by_query?conflicts=proceed
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "country": "CR"
          }
        },
        {
          "range": {
            "by_date": {
              "gte": "2000-01-01",
              "lte": "2015-12-31"
            }
          }
        }
      ]
    }
  }
}

再次查询,满怀期望等待中~,页面一闪,不出意外,又出错了,此时我丝毫不慌,报错如下:

{
  "statusCode": 504,
  "error": "Gateway Time-out",
  "message": "Client request timeout"
}
  1. 第一步解决后出现超时问题,这是因为我们执行删除后会等待命令结束之后的结果,但是由于删除的数据量太大,不可能一时半会儿删除数据,从而出现超时问题。通过查询资料发现,这个可以通过加一个参数来设置执行命令之后立即返回,不等待删除的结果。只要设置wait_for_completion=false即可。
    官网地址
    在这里插入图片描述
    此时删除脚本如下:
POST /ads_lading_trade_brief_es_02/_delete_by_query?conflicts=proceed&wait_for_completion=false
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "country": "CR"
          }
        },
        {
          "range": {
            "by_date": {
              "gte": "2000-01-01",
              "lte": "2015-12-31"
            }
          }
        }
      ]
    }
  }
}

返回结果:

{
  "task" : "fFDobwtSQvS1ishWYtWQcg:142113449"
}

执行完之后立马返回了一个taskid,我们可以通过这个taskid来查看数据的删除情况。

GET /_tasks/fFDobwtSQvS1ishWYtWQcg:142113449

结果:

{
  "completed" : false,
  "task" : {
    "node" : "fFDobwtSQvS1ishWYtWQcg",
    "id" : 142113449,
    "type" : "transport",
    "action" : "indices:data/write/delete/byquery",
    "status" : {
      "total" : 10918603,
      "updated" : 0,
      "created" : 0,
      "deleted" : 0,
      "batches" : 243,
      "version_conflicts" : 242000,
      "noops" : 0,
      "retries" : {
        "bulk" : 0,
        "search" : 0
      },
      "throttled_millis" : 0,
      "requests_per_second" : -1.0,
      "throttled_until_millis" : 0
    },
    "description" : "delete-by-query [ads_lading_trade_brief_es_02]",
    "start_time_in_millis" : 1604650445876,
    "running_time_in_nanos" : 159708214419,
    "cancellable" : true,
    "headers" : { }
  }
}

不断执行,你会发现删除的数据在不断增加。
参考文章:
https://www.jianshu.com/p/60a6ad164035
https://blog.csdn.net/mmayanshuo/article/details/84784784
https://blog.csdn.net/superman_xxx/article/details/90927950
官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/6.7/docs-delete-by-query.html
官网java API地址:https://www.elastic.co/guide/en/elasticsearch/client/java-rest/6.7/java-rest-high-document-delete-by-query.html

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值