关闭

1、lucene 简介

415人阅读 评论(0) 收藏 举报

是什么

lucene是一款高性能的、可扩展性的信息检索 (IR)工具库。

lucene组件



建立索引步骤:

1、获取内容

      通过一些爬虫来获取索引内容。

lucene作为一款核心搜索库,并不提供任何功能来实现内容获取。

目前有大量的开源爬虫软件可以实现这个功能。

开源爬虫软件:1、Solr   2、Nutch  3、Grub   4、Heritrix    5、Drods    6、Aperture

2、建立文档

获取原始数据后,就需要对这些内容进行索引,首先要将这些内容转换成文档,以供搜索引擎使用。

3、文档分析

将文档分割成一系列独立的原子元素。

4、文档索引

将文档加入到索引

lucene核心类

索引类:IndexWriter、Directory、Analizer、Document、Field


1、IndexWriter

indexWriter索引过程的核心组件。
类负责创建新索引或者打开已有索引,以及向索引中添加、删除或更新被索引文档的信息。
提供针对索引文件的写入操作,但不能用于读取或搜索索引。

2、Directory

描述索引存放位置。

3、Analyzer

分析器。
负责从索引文件中提取词汇单元。

4、Document

一些Field集合。

5、Field

域,索引中的每个文档都包含一个或多个不同命名的域,这些域包含在Field类中。

搜索类:IndexSearcher、Term、Query、TermQuery、TopDocs.

1、IndexSearcher

用于搜索由IndexWriter类创建的索引。

2、Term

索引功能的基本单元。

3、Query

查询类。

4、TermQuery

最基本的查询类型,也是简单查询类型之一。

5、TopDocs

简单的指针容器,只想前N个排名的搜索结果。














0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:28091次
    • 积分:499
    • 等级:
    • 排名:千里之外
    • 原创:19篇
    • 转载:3篇
    • 译文:1篇
    • 评论:11条
    文章分类
    最新评论