Lucene简介
获取内容
Lucene作为一个核心搜索库,并不提供任何功能来实现内容获取
建立文档
文档主要包括几个带值的域,比如标题(title),正文(body),摘要(abstract),作者(author)和链接(URL)
可以向比较重要的单个的文档或域中插入权值,加权操作可能在索引操作前就静态完成了,也可能要在搜索期间才动态完成。包括Lucene在内的几乎所有搜索引擎都会自动地静态地对内容较短的域进行加权。
Lucene提供了一个API建立域和文档,但不提供任何建立它们的程序逻辑,因为这些逻辑完全由调用API的应用程序根据具体情况完成。Lucene也不提供任何文档过滤器
文档分析
将文档中的文本域分割成词汇单元(即单词),常见的有词干提取器用于从单词中提取词根。Lucene提供了大量内嵌的分析器可以自定义分析链
文档索引
索引步骤中,文档被加入到索引列表,索引的优劣直接影响到搜索体验
搜索组件
从索引中查找单词,从而找到包含该单词的文档。搜索质量主要由准确率(Precision,衡量搜