Lucene 深度解析

最新推荐文章于 2024-03-08 20:50:06 发布

chenggou1738

最新推荐文章于 2024-03-08 20:50:06 发布

阅读量192

点赞数

原文链接：https://my.oschina.net/u/3889422/blog/1837690

版权

概要

Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。

结构

lucene 在存储它的全文索引结构时，是有层次结构的，这涉及到5个层次：索引(Index)；段(Segment)；文档(Document)；域(Field)；词(Term)

Directory

Lucene中的文件操作都是通过这Directory来实现的；Directory的实现类分为文件目录、内存目录和目录的代理类及工具类；

1、文件目录

FSDirectory

文件系统目录操作的父类，基本实现的文件目录操作；

SimpleFSDirectory

FSDirectory的简单实现,并发能力有限，遇到多线程读同一个文件时会遇到瓶颈，通常用NIOFSDirectory
或MMapDirectory代替；

NIOFSDirectory

通过java.nio's FileChannel实行定位读取，支持多线程读（默认情况下是线程安全的）。该类仅使用FileChannel进行读操作，写操作则是通过FSIndexOutput实现。注意：NIOFSDirectory 不适用于Windows系统，另外如果一个访问该类的线程，在IO阻塞时被interrupt或cancel，将会导致底层的文件描述符被关闭，后续的线程再次访问NIOFSDirectory时将会出现ClosedChannelException异常，此种情况应用SimpleFSDirectory代替；

MMapDirectory

通过内存映射进行读，通过FSIndexOutput进行写的FSDirectory实现类。使用该类时要保证用足够的虚拟地址空间。另外当通过IndexInput的close方法进行关闭时并不会立即关闭底层的文件句柄，只有GC进行资源回收时才会关闭；

Analyzer

Analyzer，或者说文本分析的过程，实质上是将输入文本转化为文本特征向量的过程。这里所说的文本特征，可以是词或者是短语。它主要包括以下四个步骤：

分词，将文本解析为单词或短语
归一化，将文本转化为小写
停用词处理，去除一些常用的、无意义的词
提取词干，解决单复数、时态语态等问题

转载于:https://my.oschina.net/u/3889422/blog/1837690

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。