搜索与ElasticSearch
文章平均质量分 92
ES
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
DPR-Dense Passage Retrieval for Open-Domain Question Answering 论文阅读
开放域的问答依赖于准确地文档召回。传统做法,通常依赖于TF-IDF或BM25这类方法。在本篇论文中,作者提出一种仅使用深度语义向量的方法进行召回,而这个文档的语义向量,即来自于简单的对偶encoder框架(说的这么玄乎,其实就是俩一样的BERT-encoder,分别处理query和doc),本文提出的模型框架,面对top20文档召回的准确率问题,相较于强大的Lucene-BM25,有至多9%~19%的效果提升,这帮助我们得到了一个全新的、端到端的sota QA系统。论文链接:https://arxiv.原创 2021-01-31 12:25:53 · 1519 阅读 · 0 评论 -
倒排索引、正排索引,以及ElasticSearch对倒排索引的优化方法
正排索引与倒排索引首先,我们需要这两种索引方式是要干啥?其实任何一种索引模式,都对应的是不同的信息存储方式。这样不同的存储方式,主要是为了不同的查询要求而定的。正排索引和倒排索引就是如此,正排易维护,但搜索代价很大(耗时间);倒排搜索快,但建立倒排索引时间久、文档库的每次更新都意味着倒排索引的重建,故维护较麻烦。但由于倒排索引的建立可以放在线下,所以这一般来说不是太大的问题。正排索引正排索引就是最普通的索引排序方式。正排索引也是采取key-value pair的方式对数据进行保存,key是doc-id原创 2020-06-22 17:39:17 · 3930 阅读 · 0 评论