Lucene.Net的学习心得

最新推荐文章于 2024-07-25 18:31:33 发布

躲雨的小孩

最新推荐文章于 2024-07-25 18:31:33 发布

阅读量402

点赞数

分类专栏： Lucene.net 全文检索学习心得文章标签：文档全文检索语言 token tokenize search

本文链接：https://blog.csdn.net/duoyudexiaohai2/article/details/6689301

版权

Lucene.net 全文检索学习心得专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Lucene.Net

1. 搜索的分类：

Ø 结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。

Ø 非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。

Ø 对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。

Ø 对非结构化数据的搜索：如利用windows的搜索也可以搜索文件内容。

2. 全文检索：

先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。

全文检索大体分两个过程，索引创建(Indexing)和搜索索引(Search)。

Ø 索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。

Ø 搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

3. 索引里面究竟存些什么?

有人可能会说，全文检索的确加快了搜索的速度，但是多了索引的过程，两者加起来不一定比顺序扫描快多少。的确，加上索引的过程，全文检索不一定比顺序扫描快，尤其是在数据量小的时候更是如此。而对一个很大量的数据创建索引也是一个很慢的过程。

然而两者还是有区别的，顺序扫描是每次都要扫描，而创建索引的过程仅仅需要一次，以后便是一劳永逸的了，每次搜索，创建索引的过程不必经过，仅仅搜索创建好的索引就可以了。

全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。

4. 如何建立索引？

第一步：一些要索引的原文档(Document)。

为了方便说明索引创建过程，这里特意用两个文件为例：

文件一：Studentsshould be allowed to go out with their friends, but not allowed to drink beer.

文件二：My friendJerry went to school to see his students but found them drunk which is notallowed.

第二步：将原文档传给分词组件(Tokenizer)。

分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)：

1. 将文档分成一个一个单独的单词。

2. 去除标点符号。

3. 去除停词(Stop word)。

所谓停词(Stop word)就是一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小。

英语中挺词(Stop word)如：“the”,“a”，“this”等。

对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。

经过分词(Tokenizer)后得到的结果称为词元(Token)。

在我们的例子中，便得到以下词元(Token)：

“Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。

第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

语言处理组件(linguisticprocessor)主要是对得到的词元(Token)做一些同语言相关的处理。

对于英语，语言处理组件(Linguistic Processor)一般做以下几点：

1. 变为小写(Lowercase)。

2. 将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。

3. 将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。

Stemming 和 lemmatization的异同：

· 相同之处：Stemming和lemmatization都要使词汇成为词根形式。

· 两者的方式不同：

· Stemming采用的是“缩减”的方式：“cars”到“car”，“driving”到“drive”。

· Lemmatization采用的是“转变”的方式：“drove”到“drove”，“driving”到“drive”。

· 两者的算法不同：

· Stemming主要是采取某种固定的算法来做这种缩减，如去除“s”，去除“ing”加“e”，将“ational”变为“ate”，将“tional”变为“tion”。

· Lemmatization主要是采用保存某种字典的方式做这种转变。比如字典中有“driving”到“drive”，“drove”到“drive”，“am,is, are”到“be”的映射，做转变时，只要查字典就可以了。

· Stemming和lemmatization不是互斥关系，是有交集的，有的词利用这两种方式都能达到相同的转换。

语言处理组件(linguistic processor)的结果称为词(Term)。

在我们的例子中，经过语言处理，得到的词(Term)如下：

“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”。

也正是因为有语言处理的步骤，才能使搜索drove，而drive也能被搜索出来。

第四步：将得到的词(Term)传给索引组件(Indexer)。

索引组件(Indexer)主要做以下几件事情：

1. 利用得到的词(Term)创建一个字典。

在我们的例子中字典如下：

Term

Document ID

student

allow

their

friend

allow

drink

beer

friend

jerry

school

see

his

student

find

them

drink

allow

2. 对字典按字母顺序进行排序。

Term

Document ID

allow

beer

drink

find

friend

his

jerry

school

see

student

their

them

3. 合并相同的词(Term)成为文档倒排(PostingList)链表。

在此表中，有几个定义：

· Document Frequency 即文档频次，表示总共有多少文件包含此词(Term)。

· Frequency 即词频率，表示此文件中包含了几个此词(Term)。

所以对词(Term) “allow”来讲，总共有两篇文档包含此词(Term)，从而词(Term)后面的文档链表总共有两项，第一项表示包含“allow”的第一篇文档，即1号文档，此文档中，“allow”出现了2次，第二项表示包含“allow”的第二个文档，是2号文档，此文档中，“allow”出现了1次。

到此为止，索引已经创建好了，我们可以通过它很快的找到我们想要的文档。

而且在此过程中，我们惊喜地发现，搜索“drive”，“driving”，“drove”，“driven”也能够被搜到。因为在我们的索引中，“driving”，“drove”，“driven”都会经过语言处理而变成“drive”，在搜索时，如果您输入“driving”，输入的查询语句同样经过我们这里的一到三步，从而变为查询“drive”，从而可以搜索到想要的文档。

5. 如何对索引进行搜索？

如何像Google一样，在成千上万的搜索结果中，找到和查询语句最相关的呢？

如何判断搜索出的文档和查询语句的相关性呢？

这要回到我们第四个问题：如何对索引进行搜索？

1. 索引过程：

1) 有一系列被索引文件

2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。

3) 经过索引创建形成词典和反向索引表。

4) 通过索引存储将索引写入硬盘。

2. 搜索过程：

a) 用户输入查询语句。

b) 对查询语句经过语法分析和语言分析得到一系列词(Term)。

c) 通过语法分析得到一个查询树。

d) 通过索引存储将索引读入到内存。

e) 利用查询树搜索索引，从而得到每个词(Term)的文档链表，对文档链表进行交，差，并得到结果文档。

f) 将搜索到的结果文档对查询的相关性进行排序。

g) 返回查询结果给用户。

6. Lucene.Net框架

Lucene.net是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

让我们更细一些看Lucene.net的各组件：

让我们再详细到对Lucene API 的调用实现索引和搜索过程。

索引过程如下：
- 创建一个IndexWriter用来写索引文件，它有几个参数，INDEX_DIR就是索引文件所存放的位置，Analyzer便是用来对文档进行词法分析和语言处理的。
- 创建一个Document代表我们要索引的文档。
- 将不同的Field加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的Field来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。
- IndexWriter调用函数addDocument将索引写到索引文件夹中。
搜索过程如下：
- IndexReader将磁盘上的索引信息读入到内存，INDEX_DIR就是索引文件存放的位置。
- 创建IndexSearcher准备进行搜索。
- 创建Analyer用来对查询语句进行词法分析和语言处理。
- 创建QueryParser用来对查询语句进行语法分析。
- QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。
- IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。

躲雨的小孩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene.Net的学习心得

Lucene.Net 1. 搜索的分类：Ø 结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。 Ø 非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。 Ø 对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据
复制链接

扫一扫