这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记与猜想。若有不足之处还请不吝赐教,以不断完善之。
搜索引擎与信息检索
-
信息检索的过程:
构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。
-
倒排索引
常用的索引方式有3种,分别是倒排、后缀数组和签名文档。
从理论上说,倒排是一种面向单词的索引机制。通常,由词(关键字)和出现情况两部分组成。对于索引中的每个词(关键字),都跟随一个列表(位置表),用来记录单词在所有文档中出现的位置。
Lucene入门实例
-
Lucene充当的是一个全文索引工具的角色,因此,为了使用它,需要制造一个全文索引的环境。
-
开发过程:
对要进行查找的文档进行预处理
将大文档切分成多个小文档
创建eclipse工程并编写代码
效果测试
-
je-analysis是一个负责分词的。
-
通常情况下,使用Lucene的步骤如下所示:
为要处理的内容建立索引
构建查询对象
在索引中查找
-
Lucene中的Field类是文档索引期间很重要的类,控制着被索引的域值
http://blog.csdn.net/zhaoxiao2008/article/details/14180019
-
创建索引