1、lucene 简介

是什么

lucene是一款高性能的、可扩展性的信息检索 (IR)工具库。

lucene组件



建立索引步骤:

1、获取内容

      通过一些爬虫来获取索引内容。

lucene作为一款核心搜索库,并不提供任何功能来实现内容获取。

目前有大量的开源爬虫软件可以实现这个功能。

开源爬虫软件:1、Solr   2、Nutch  3、Grub   4、Heritrix    5、Drods    6、Aperture

2、建立文档

获取原始数据后,就需要对这些内容进行索引,首先要将这些内容转换成文档,以供搜索引擎使用。

3、文档分析

将文档分割成一系列独立的原子元素。

4、文档索引

将文档加入到索引

lucene核心类

索引类:IndexWriter、Directory、Analizer、Document、Field


1、IndexWriter
indexWriter索引过程的核心组件。
类负责创建新索引或者打开已有索引,以及向索引中添加、删除或更新被索引文档的信息。
提供针对索引文件的写入操作,但不能用于读取或搜索索引。
2、Directory
描述索引存放位置。
3、Analyzer
分析器。
负责从索引文件中提取词汇单元。
4、Document
一些Field集合。
5、Field
域,索引中的每个文档都包含一个或多个不同命名的域,这些域包含在Field类中。

搜索类:IndexSearcher、Term、Query、TermQuery、TopDocs.

1、IndexSearcher
用于搜索由IndexWriter类创建的索引。
2、Term
索引功能的基本单元。
3、Query
查询类。
4、TermQuery
最基本的查询类型,也是简单查询类型之一。
5、TopDocs
简单的指针容器,只想前N个排名的搜索结果。














  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值