Lucene-构建和安装基础示例程序

最新推荐文章于 2021-09-29 19:03:47 发布

动量

最新推荐文章于 2021-09-29 19:03:47 发布

阅读量354

点赞数

分类专栏： lucene

lucene 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Lucene-构建和安装基础示例程序

关于本文
关于示例程序
设置CLASSPATH环境变量
使用索引搜索
关于代码
核心代码
索引文件
搜索索引

关于本文

本文的目标是通过示例程序帮助你快速入门，了解基本的安装流程，和配置方法。

关于示例

示例程序演示了Lucene各种功能，以及如何嵌入到你的应用中。

设置CLASSPATH环境变量

首先，你需要下载最新的Lucene发布包，然后解压到一个目录中。

然后你会得到四个JAR包： lucene-core-{version}.jar、 lucene-queryparser-{version}.jar、 lucene-analyzers-common-{version}.jar、 lucene-demo-{version}.jar，把四个JAR包放入到CLASSPATH中。

使用索引搜索

假设你已经正确配置了CLASSPATH环境变量，接着为文件建立索引。

java org.apache.lucene.demo.IndexFiles -docs {path-to-lucene}

上面的命令生成一个叫index的子目录，里面包含了生成了所有Lucene源代码的索引。

建立完索引之后，通过下面的命令来使用索引搜索：

java org.apache.lucene.demo.SearchFiles

尝试搜索supercalifragilisticexpialidocious，你将会得到无结果，因为Lucene源代码中没有这个词。换一个词，如string，再试一次。然后得到了很多结果，每页十条返回，当然你也可以根据需要要求返回更多的结果。

关于代码

本文深入到命令行的背后–源代码，告诉你核心代码有哪些，在哪里，以及功能是什么，目的是为了使你知道如何在自己应用程序中集成Lucene。

核心代码

IndexFiles.java:用于创建一个索引文件
SearchFiles.java:用于搜索索引文件

索引文件

上面说到IndexFiles类用于创建索引文件，下面来看看它是如何做的。

IndexFiles的执行流程：

main()方法解析命令行参数，然后初始化IndexWriter，打开一个Directory，再初始化StandardAnalyzer和IndexWriterConfig。

IndexFiles的命令行参数：

-index：指定了一个存储索引文件的目录路径，如果没有指定-index参数的值，则默认使用相对路径index，如果当前目录不存在，则新建一个。在某些平台上，默认index目录可能是在一个不同的目录中创建的，如用户目录。
-docs：指定要建立索引为的文档路径。
-update：指示IndexFiles不要删除那些已经存在的索引文件，如果没有这个参数，那么IndexFiles在建立索引之前首先清空索引文件。

IndexWriter使用Directory存储索引信息，Directory是一个抽象概念，并不一定是指文件系统上的一个目录，也可以是RAM或数据库等。在示例程序中用到的是FSDirectory，它存储的目的地是文件系统。

Analyzer是一个处理通道，通过把输入文本打散成一个个的单词，然后再在单词上做进一步的处理，如小写转换、同义词插入、过滤等操作。在示例程序中，使用的是StandardAnalyzer，它使用Unicode文本分隔算法（该算法定义在 Unicode Standard Annex #29中），然后转换成小写，并过滤停止词。Lucene只提供少数几种语言的分析器，定义在lucene/analysis/common/src/java/org/apache/lucene/analysis下。

IndexWriterConfig封装了IndexWriter的所有配置。

当IndexWriter初始化之后，接着调用indexDocs()方法来递归建立Document对象，然后再由IndexWriter序列化到文件中。Document对象是一个简单的数据对象，表示一个索引文件。如果使用了-update命令行参数，IndexWriterConifg的OpenMode将会被设置为OpenMode.CREATE_OR_APPEND，从而IndexWriter尝试根据标识符查找是否存在旧的索引文件，如果存在，则更新；如果不存在，则新建。

搜索索引

SearchFile类由三个组件组成：IndexSearcher、StandardAnalyzer和QueryParser。搜索用到的分词器与建立索引时适用的分词器必须是同一个，才能保证结果正确。QueryParser分析搜索词，产生一个查询对象Query，然后再传递给IndexSearcher进行搜索。

调用SearchFile的search(query,n)方法进行搜索，命中文档将按照分数从高到低排序，然后返回最高的前几文档。

知识链

Lucene-大纲

参考

Lucene 7.4.0 demo API

动量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene-构建和安装基础示例程序

Lucene-构建和安装基础示例程序关于本文关于示例程序设置CLASSPATH环境变量使用索引搜索关于代码核心代码索引文件搜索索引关于本文本文的目标是通过示例程序帮助你快速入门，了解基本的安装流程，和配置方法。关于示例示例程序演示了Lucene各种功能，以及如何嵌入到你的应用中。设置CLASSPATH环境变量首先，你需要下载最新的Lucene发布包，然后解压到一个目...
复制链接

扫一扫