PyLucene学习之一

简介

Lucene是一款高性能的、可扩展的信息检索工具库。
信息检索是指文档搜索,文档内信息搜索或者文档相关的元数据搜索等操作。
Lucene只是搜索程序的核心索引和搜索模块

搜索程序首先需要实现的功能是索引链, 分为以下几个步骤:
1. 检索原始内容
2. 根据原始内容来创建对应的文档
3. 对创建的文档进行索引

Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index

为了快速搜索大量的文本,必须首先建立针对文本索引,将文本内容转换成能够进行快速搜索的格式,从而消除慢速顺序扫描处理带来的影响。此过程称为索引操作,输出就是索引。

索引组件:

  1. 获取内容:爬虫或者其他方式获取待索引的文本内容,Lucene并不提供这方面支持
  2. 建立文档
  3. 文档分析
    将文本分割成一系列被称为语汇单元的独立的原子元素,这个步骤即决定文档中的文本域如何分割成语汇单元系列。
  4. 文档索引

搜索组件:

搜索质量衡量:查准率, 查全率
1. 用户搜索界面(自己用,可以写的搓一些)
2. 建立查询(Luence存在默认的查询解析器)
3. 搜索查询
查询检索索引并返回与查询语句匹配的文档
4. 展现结果

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值