搜索引擎
文章平均质量分 92
倪琛
程序员
展开
-
Lucene 索引原理系列(1):索引分段
目录背景搜索引擎的核心:倒排索引Lucene 的索引实现为什么 Lucene 要对索引分段?为什么段是不可变的 ?分段会带来什么问题?小结参考链接背景刚接触 Lucene 时,只求能用就行,至于背后复杂的设计和原理,我看得晕头转向,云里雾里。比如,作为搜索引擎核心的倒排索引概念,原理上其实不难理解,但怎么一到了具体的实现,就多出了这么多复杂的设计!倒排索引本质上不就是个哈希表吗,为什么在 Lucene 里要分段(Segment)?为什么每个段都是不变的,从而带来了段合并(segment merg原创 2022-01-16 13:10:56 · 843 阅读 · 0 评论 -
使用 Luke 浏览 Lucene 的索引
目录背景下载 Luke运行 Luke基本功能加载索引浏览 Documents基础搜索小结背景我目前所在的搜索团队用 Lucene 给公司的在线视频应用做站内搜索(对,你没看错,是直接用的 Lucene 而不是 Elasticsearch!之后等我熟悉架构了可以写写直接用 Lucene 的优缺点),索引是每天更新一次。最近在做国际化,新增了一个语种的 analyzer,并且索引里也会加一些字段。为了验证和测试这些改动,我需要在索引里加一些 mock 的 document,看看能不能搜到。写入 mock原创 2022-01-03 00:55:06 · 1839 阅读 · 0 评论