是什么
lucene是一款高性能的、可扩展性的信息检索 (IR)工具库。
lucene组件
建立索引步骤:
1、获取内容
通过一些爬虫来获取索引内容。
lucene作为一款核心搜索库,并不提供任何功能来实现内容获取。
目前有大量的开源爬虫软件可以实现这个功能。
开源爬虫软件:1、Solr 2、Nutch 3、Grub 4、Heritrix 5、Drods 6、Aperture
2、建立文档
获取原始数据后,就需要对这些内容进行索引,首先要将这些内容转换成文档,以供搜索引擎使用。
3、文档分析
将文档分割成一系列独立的原子元素。
4、文档索引
将文档加入到索引
lucene核心类
索引类:IndexWriter、Directory、Analizer、Document、Field
1、IndexWriter
indexWriter索引过程的核心组件。
类负责创建新索引或者打开已有索引,以及向索引中添加、删除或更新被索引文档的信息。
提供针对索引文件的写入操作,但不能用于读取或搜索索引。
2、Directory
描述索引存放位置。
3、Analyzer
分析器。
负责从索引文件中提取词汇单元。
4、Document
一些Field集合。
5、Field
域,索引中的每个文档都包含一个或多个不同命名的域,这些域包含在Field类中。
搜索类:IndexSearcher、Term、Query、TermQuery、TopDocs.
1、IndexSearcher
用于搜索由IndexWriter类创建的索引。
2、Term
索引功能的基本单元。
3、Query
查询类。
4、TermQuery
最基本的查询类型,也是简单查询类型之一。
5、TopDocs
简单的指针容器,只想前N个排名的搜索结果。