lucence: Index是目录(多文件),没有固定进程
倒排索引:
每个需index的field建立term - docId list:如何快速查找(FST)
多条件查询:docId list进行如交集运算,此list设计为skiplist(本身有序,多层,快速查找)
docId - doc :skiplist 快速查找
考虑docId list 设计为doc(Id +freq +…) list
数值如何建立inverted index:BKD-Tree :key是数值范围,value内docId包含实际数值
phrase query:暂时处理成两个term query,注意保证顺序和slop(间隔数)
Analyzer(tokenizer+token filter):text-tokenizer-token stream-token filter-token stream-token filter-token stream-inverted index
同义词搜索是如何实现的?token filter对单词流进行泛化扩充,将一个单词变成多个单词,再插入到倒排索引中,在查询阶段也对查询关键词进行同义扩展成多个词汇再合并查询。