pylucene构建索引_用Lucene构造垂直搜索引擎

Lucene是用于全文检索的开源库,Apache软件基金会提供支持。它由Java语言开发,也提供Python接口调用。

本文介绍使用开源项目Lupyne构建垂直搜索引擎,搜索本地网页中的内容。它使用Python语言编写,搜索功能用Lucene引擎实现,使用html2text从本地网页中提取数据,实现对网页中文本的搜索,前端调用CherryPy框架(flask的web server常用作开发测试。而cherrypy的web server常用于生产环境),提供网页搜索功能。

运行文中实例需要匹配Java,Python,Lucene等各个软件版本,环境配置比较复杂,因而基于Lucene提供的docker image环境构建。

Lucene元素

使用Lucene之前,先来了解一些相关概念。

Directory:指定如何保存构建的索引,测试时常保存在内存中,实际应用中,一般将其保存在文件系统中,本例将索引保存在/tmp/a目录下。

Analyzer:分析器,用于处理文本,如分词,去停用词等。

IndexWriter:对索引进行增删查改的工具,一般的操作都围绕IndexWriter展开。

Document:构造搜索的基本单位,一般是网页、文档、邮件等。

Field:一个Document可能包含多个域Field,比如标题、正文、作者等。

实例

下面介绍垂直搜索引擎的具体构建方法。

下载Lupyne源码

$ git clone [https://github.com/coady/lupyne](ht

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值