lucence

lucence: Index是目录(多文件),没有固定进程
倒排索引:
每个需index的field建立term - docId list:如何快速查找(FST)
多条件查询:docId list进行如交集运算,此list设计为skiplist(本身有序,多层,快速查找)
docId - doc :skiplist 快速查找

考虑docId list 设计为doc(Id +freq +…) list

数值如何建立inverted index:BKD-Tree :key是数值范围,value内docId包含实际数值
phrase query:暂时处理成两个term query,注意保证顺序和slop(间隔数)
Analyzer(tokenizer+token filter):text-tokenizer-token stream-token filter-token stream-token filter-token stream-inverted index
同义词搜索是如何实现的?token filter对单词流进行泛化扩充,将一个单词变成多个单词,再插入到倒排索引中,在查询阶段也对查询关键词进行同义扩展成多个词汇再合并查询。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值