python全文检索引擎_用python做一个搜索引擎(Pylucene)

最新推荐文章于 2024-07-18 19:53:10 发布

weixin_39743622

最新推荐文章于 2024-07-18 19:53:10 发布

阅读量495

点赞数

文章标签： python全文检索引擎

本文介绍了如何使用Python实现一个简单的搜索引擎，主要依赖于Pylucene库。首先，通过爬虫搜集信息，然后利用Pylucene进行信息处理，包括分词、建立索引。最后，结合Flask框架构建一个网页来展示搜索结果。

摘要由CSDN通过智能技术生成

什么是搜索引擎？

搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统，包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构，信息搜集模块从网络采集信息到网络信息库之中（一般使用爬虫）；然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表（一般是倒排索引）构成索引库；最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。

图1 搜索引擎的一般结构

2. 使用python实现一个简单搜索引擎

2.1 问题分析

从图1看，一个完整的搜索引擎架构从互联网搜集信息开始，可以使用python编写一个爬虫，这是python的强项。

接着，信息处理模块。分词？停用词？倒排表？what？什么乱七八糟的？不用管它，我们有前辈们造好的轮子---Pylucene(lucene的python封装版本，Lucene能够帮助开发者为软件、系统增添检索功能。Lucene是一套用于全文检索和搜寻的开源程序库)。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理，包括索引的建立和搜索。

最后，为了能在网页上使用我们的搜索引擎，我们使用flask这个轻量级 Web 应用框架做一个小网页获取搜索语句并反馈搜索结果。

2.2 爬虫设计

主要搜集以下内容：目标网页的标题、目标网页的主要文字内容、目标网页指向其他页面的URL地址。网络爬虫的工作流程如图2所。爬虫的主要数据结构是队列。首先，起始的种子节点进入队列，然后从队列中取出一个节点访问，抓取该节点页面上的目标信息，再将该节点页面指向其他页面的URL链接放进队列，再从队列中取出新的节点进行访问，直至队列为空。通过队列“先进先出”的特点实现广度优先的遍历算法，逐个访问站点的每一页面。

图2

2.3 pylucene的使用

Pylucene中关于建立索引的类主要有Directory、Analyzer、IndexWriter、Document、Filed。

Directory是Pylucene中关于文件操作的类。它有SimpleFSDirectory和RAMDirectory、CompoundFileDirectory、FileSwitchDirectory等11个子类，列举的四个是与索引目录的保存相关的子类，SimpleFSDirectory是将构建的索引保存至文件系统之中；RAMDirectory是将索引保存至RAM内存之中；CompoundFileDirectory是一种复合的索引保存方式；而FileSwitchDirectory允许临时切换索引的保存方式以发挥各种索引保存方式的优点。

Analyzer，分析器。它是对爬虫获得的将要进行构建索引的文本进行处理的类。包括