开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门

这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记与猜想。若有不足之处还请不吝赐教,以不断完善之。

搜索引擎与信息检索

  1. 信息检索的过程:

    构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。

  2. 倒排索引

    常用的索引方式有3种,分别是倒排、后缀数组和签名文档。

    从理论上说,倒排是一种面向单词的索引机制。通常,由词(关键字)和出现情况两部分组成。对于索引中的每个词(关键字),都跟随一个列表(位置表),用来记录单词在所有文档中出现的位置。

Lucene入门实例

  1. Lucene充当的是一个全文索引工具的角色,因此,为了使用它,需要制造一个全文索引的环境。

  2. 开发过程:

    对要进行查找的文档进行预处理

    将大文档切分成多个小文档

    创建eclipse工程并编写代码

    效果测试

  3. je-analysis是一个负责分词的。

  4. 通常情况下,使用Lucene的步骤如下所示:

    为要处理的内容建立索引

    构建查询对象

    在索引中查找

  5. Lucene中的Field类是文档索引期间很重要的类,控制着被索引的域值

    http://blog.csdn.net/zhaoxiao2008/article/details/14180019

  6. 创建索引

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值