Elasticsearch是分布式的。在创建、更新或删除文档时,必须将文档的新版本复制到集群中的其他节点。同时Elasticsearch是异步并发的,也就是说复制请求是并行发送的,并且不能保证顺序。Elasticsearch需要确保新版的文档不会被旧版本覆盖。为了达到这个目的,对文档执行的每个操作,都由协调这个更改操作的主分片分配一个序列号。序列号随着操作递增,所以新操作的序列号一定大于旧操作的序列号。这样Elasticsearch就可以通过操作的序列号来确保文档的新版本不会被旧版本覆盖。
Elasticsearch跟踪每个文档保存的最后更改操作的序列号和主项。序列号和主项可以唯一标识一个更改操作。通过记录返回的序列号和主项,可以确保只在检索后没有其他更改的情况下更改文档。
在创建一个新文档时,会为其分配一个初始化的序列号(_seq_no)和主项(_primary_term)。在此之后如果对文档有新的变更,序列号会递增。通过GET api可查看指定文档当前的序列号和主项。在调用INDEX、UPDATE、DELETE api时,通过在url传递参数if_seq_no和if_primary_term来分别指定序列号和主项,这样只有在要操作的文档的序列号和主项为指定值时才会对文档执行指定操作,否则会返回version_conflict_engine_exception异常和状态码409。
如索引中有如下文档:
试图执行以下更新:
POST user/_update/dGuQgm0BTkzY5ivQV2rk?if_seq_no=12&if_primary_term=1
{
"doc":{
"date":"2019-10-01T00:23:42"
}
}
则会返回如下错误:
这样就保证了不会丢失序列号为11,主项为1的操作。