为Lucene选择快速唯一标识符（UUID）

最新推荐文章于 2020-12-02 20:37:29 发布

dnc8371

最新推荐文章于 2020-12-02 20:37:29 发布

阅读量390

点赞数

文章标签：数据库 python java mysql 大数据

大多数使用Apache Lucene的搜索应用程序都会为每个索引文档分配唯一的ID（即主键）。尽管Lucene本身不需要这样做（它可能不太在乎！），但应用程序通常需要它以后通过其外部ID替换，删除或检索该文档。大多数在Lucene之上构建的服务器，例如Elasticsearch和Solr ，都需要一个唯一的ID，如果不提供，则可以自动生成一个ID。

有时，您的ID值已经预先定义，例如，如果外部数据库或内容管理系统分配了ID ，或者您必须使用URI ，但是如果您可以自由分配自己的ID，那么哪种方法最适合Lucene？

一个明显的选择是Java的UUID类，该类生成版本4的通用唯一标识符，但事实证明，这是性能上最糟糕的选择：它比最快的速度慢4倍。要了解原因，需要对Lucene如何找到术语有所了解。

BlockTree术语词典

术语词典的目的是存储在索引期间看到的所有唯一术语，并将每个术语映射到其元数据（ docFreq<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dnc8371

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为Lucene选择快速唯一标识符（UUID）

大多数使用Apache Lucene的搜索应用程序都会为每个索引文档分配唯一的ID（即主键）。尽管Lucene本身不需要这样做（它可能不太在乎！），但应用程序通常需要它以后通过其外部ID替换，删除或检索该文档。大多数在Lucene之上构建的服务器，例如Elasticsearch和Solr ，都需要一个唯一的ID，如果不提供，则可以自动生成一个ID。有时，您的ID值已经预先定义，例如...
复制链接

扫一扫