一、重要类
1、索引过程
IndexWriter
Directory
Analyzer
Document
Field
2、搜索过程
IndexSearcher
Term
包含字段名和字段值,
Query
许多查询子类
TermQuery
PhraseQuery
TopDocs
记录前n个结果
索引构建
提取文本创建文档
采用Tika框架对PDF、XML、HTML文档进行处理
分析文档
大小写转换、停用词、词干提取
向索引添加文档
段结构
每档writer刷新缓存区的文档、挂起目录删除文档时候,会创建新段。
IndexWriter周期性段合并
段合并策略
MergePolicy类负责选择哪些需要合并的段。
MergeScheduler类负责执行具体合并的操作。