传智播客java学习--lucene进阶

我今天学习了lucene的一些知识,我做了简单的笔记:

 

索引文件结构:

   倒排索引,索引对象是文档中的单词等,用来存储这些单词在一个文档中的位置。例如,有些书在最后提供的索引(单词——页码的对应列表),就可以看成是一种倒排序索引。可以通过一些关键字,在全书中检索出与之相关的部

 

索引文件的检索与维护

     词汇表规模相对较小,文档集合规模较大。进行检索时,先从检索词汇表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,则在词汇表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个单词检索出的记录进行合并。

维护倒排索引有三个操作:插入、删除和更新文档。但是更新操作需要较高的代价。因为文档修改后(即使是很小的修改),就可能会造成文档中的很多的关键词的位置都发生了变化,这就需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行(真正的)更新操作,而是使用“先删除,后创建”的方式代替更新操作。

 

Lucene常用的API:

Document :Lucene所操作的对象

Field:组成Document的元素,代表一个属性。Store、Index

   new Field( String name, String value, Store store, Index index )

Directory:索引库(目录)

   FSDirectory    :真实的目录

   RAMDirectory:在内存中的一个虚拟的目录

 

QueryParser:把查询字符串变为查询对象的工具。使用子类: MultiFieldQueryParser

   new MultiFieldQueryParser(String[] fields, Analyzer a)

Term:代表某个属性中的一个关键词(目录中出现的条目),是搜索的最小单位

Query :查询对象(封装的过滤条件)。有很多子类,对应各种各样的查询方式。

TopDocs(一套) :代表查询结果

  // 添加索引

       addDocument( Document doc )

       // 更新

       updateDocument(Term term, Document doc)

       // 删除

       deleteDocument(Term term)

       // 合并索引库

       addIndexesNoOptimize(Directory[])

       // 优化索引库

       optimize()

 

日期时间与数字类型的使用

  在对属性值进行大小比较时(通常是使用范围查询,比较数字类型的时候),是按照字符串的比较规则,因为他们都是转成字符串后存储的。这样就会出现问题,如 “20”是大于“100”的(根据字符串的比较规则)。解决的方法是:让数字转成的字符串具有相同的位数,如位数不足,就在前面补相应数量个“0”。数字到符串、字符串到数字的转换可以使用Lucene提供的工具类NumberTools完成。对于日期与字符串的双向转换,则可以使用Lucene提供的DateTools完成。

 

相关度排序

  Lucene的搜索结果默认按相关度排序的。所谓相关度,就是文档的得分。Lucene有一个评分机制,就是对检索结果按某种标准进行评估,然后按分值的高低来对结果进行排序。

 

1,       文档的得分与用户输入的关键字有关系,而且是实时运算的结果。得分会受关键字在文档中出现的位置与次数等的影响。

2,       可以利用Boost影响Lucene查询结果的排序,通过设置Document的Boost来影响文档的权重,以达到控制查询结果顺序的目的:Document.setBoost(float)。默认值为1.0f,值越大,得分越高。

3,       也可以在查询时给Filed指定boost:Field.setBoost(float)。当同样的term属于不同的field时,如果field的boost不一样,其所属的文件的得分也不一样。

 

Java Lucene-Core 是 Apache Lucene 项目的核心依赖库。Lucene 是一个开源的全文检索引擎工具包,提供了强大的全文检索功能,可用于构建各种基于文本的应用程序。 在使用 Lucene 时,需要添加 Lucene-Core 依赖到项目中,以便能够使用 Lucene 提供的各种功能。Lucene-Core 是 Lucene 项目最基本的依赖库,包含了一些必备的类和方法,用于索引和搜索文档。 通过 Lucene-Core,可以使用 Lucene 提供的各种 API 来创建索引、搜索和加权查询。Lucene 使用倒排索引的方式来快速定位包含搜索词的文档,而不需要遍历整个文档集合。这种索引结构使得 Lucene 具有出色的搜索效率和性能。 Lucene-Core 还提供了各种分析器(Analyzer)和查询解析器(Query Parser),用于处理文本的分词、词干处理和查询解析等操作。分析器可用于将文本分割成词语,并根据需要进行一些文本处理操作。查询解析器则用于将用户的查询语句解析成 Lucene 可以理解的查询对象。 除了 Lucene-Core,还存在其他的 Lucene 依赖库,如 Lucene-Analyzers、Lucene-Queries 等,它们提供了更高级的功能和扩展,用于处理多语言分词、模糊查询、范围查询等等。 总之,Java Lucene-Core 依赖是使用 Lucene 的必备库,它提供了构建全文检索应用程序所需的基本功能和工具。通过使用 Lucene-Core,开发人员可以更方便地利用 Lucene 的强大功能来实现高效的全文检索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值