Boost文档搜索

最新推荐文章于 2023-02-22 21:51:41 发布

楚渐灵

最新推荐文章于 2023-02-22 21:51:41 发布

阅读量461

点赞数 1

分类专栏： C++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43747991/article/details/109000960

版权

C++ 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

源码戳这里

Boost 文档搜索是基于 boost 文档的一个站内搜索引擎，当用户在页面上输入查询词后，就能查询出相关 boost 的在线文档。

具体搜索过程：

对离线版本的 html 文档进行解析，并将解析结果放到一个文本文件中
读取处理好文本进行分词以及权重计算等过程，构建出正排索引和倒排索引
对查询词进行分词，根据查询词的分词结果进行倒排索引查找，将结果按照权重进行排序
通过 HTTP 服务器搭载搜索页面提供服务

整个项目分为四个模块：预处理模块、索引模块、搜索模块、服务器模块

预处理模块

输入路径，提取出所有的 html 文档
读取 html 文档，解析出标题、url、正文
用 ‘\3’ （不可见字符）对解析出的标题、url 和正文进行分隔，每一个 html 为一行，存储在文件中

索引模块

读取文本文件，用 jieba 分词对文章正文进行分词
通过统计词频来计算出某个文档中某个词的权重，标题中的词占得权重适当多一些
构造正排索引和倒排索引。正排索引就是通过文档的 id 找到文档的信息，而倒排索引就是通过文档内容找到对应文档的 id

搜索模块

用 jieba 对查询词进行分词
用查询词分词后的结果进行倒排索引找到相关的文档
根据查询词在文档中权重的高低，对搜索到的文档进行排序，权重高的展示的靠前
根据文档 id 在正排索引中查询到文档信息后，以 json 格式展示

服务器模块

将 HTTP 服务器挂载搜索页面

效果展示

在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

楚渐灵 CSDN认证博客专家 CSDN认证企业博客

码龄6年

85: 原创

4万+: 周排名

189万+: 总排名

5万+: 访问

: 等级

1093: 积分

1277: 粉丝

157: 获赞

47: 评论

123: 收藏

私信

关注

热门文章

分类专栏

习题 3篇
数据库 3篇
C++ 12篇
网络 6篇
操作系统 14篇
golang 4篇
前端 9篇
设计模式 2篇
C 15篇
数据结构 18篇

最新评论

用C语言实现Warshall运算
楚渐灵: 不过文心一言说的对，你可以使用malloc
用C语言实现Warshall运算
楚渐灵: 这个就没必要纠结了，现在已经2024年了，别再用vc6.0了
用C语言实现Warshall运算
楚渐灵: 这个我已经无法给出解释了，这是我多年前的作业，我记得当时我的结果没问题，你也可以自己调试调试，按你的最终结果来
用C语言实现Warshall运算
cheemb: 我觉得第39-51行有问题复制过去运行结果不太对我把每个数组的[][]里的变量前后对调结果就对了
用C语言实现Warshall运算
cheemb: 第9-15行的变长数组在部分编译器中并不支持（以下来自文心一言）在C语言中，你给出的代码片段试图声明一个二维数组a，其大小由用户输入的m和n决定。但是，这里有一个重要的问题：C语言标准(C99之前）并不支持变长数组（Variable Length Array,VLA），即数组的大小不能在运行时决定。这意味着你不能直接在函数内部使用变量（如m和n）来声明数组的大小。不过，从C99标准开始，变长数组是被允许的。如果你正在使用一个支持C99或更新标准的编译器，那么你的代码片段在逻辑上是正确的（除了可能缺少一些错误检查和初始化）。但是，如果你在使用一个较旧的编译器或者想要确保代码的可移植性，你应该考虑其他方法来动态分配二维数组的内存。这通常涉及到使用指针和malloc函数。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。