Boost库文档搜索引擎

Zevin~

已于 2023-04-13 20:39:22 修改

阅读量377

点赞数

分类专栏：项目文章标签：搜索引擎爬虫

于 2023-02-22 21:51:41 首次发布

本文链接：https://blog.csdn.net/m0_61567378/article/details/129171331

版权

2 篇文章 0 订阅

订阅专栏

综述

这个站内搜索项目使用 Boost 库作为基础，支持用户输入关键字并返回多个相关搜索结果。每个结果包含文档标题、简介和 URL，用户可以通过点击标题访问指定网页。此外，该项目还提供词频统计和热词排行榜功能，以便更好地了解文档内容和查询趋势。

请添加图片描述

git clone git@github.com:zevin02/BoostSearchEngine.git
cd BoostSearchEngine
make

请添加图片描述

请添加图片描述

将爬虫和下载的boost库的文件，进行提炼，去标签化，保留里面的有效数据

请添加图片描述

根据将去标签化后构建的内容集合在内存中 构建正排索引，形成对应的文档结构体
将形成的文档结构体在内存中 构建倒排索引，根据关键词找到对应的 倒排拉链（一系列和该关键字相光的文档集合)
- 根据 Jieba分词对 title和 content进行分词同时划定权重，构建倒排拉链
- 每个倒排索引中都包含权重，之后我们就能够使用权重对文档优先级进行排序

请添加图片描述

使用Redis的Zset
用户输入的关键词分词后，在Zset中查找，找到的话，就将对应的score进行自增
每找到对应的关键词的话，就添加到Zset中,设置初始的score=0

使用前缀树和优先级队列，统计出现次数最高的几个词

关注