站内搜索引擎

站内搜索引擎

在Boost官网查文档时发现Boost官网没有提供检索,于是就想着做一个可以检索Boost帮助文档的一个小型站内搜索引擎,先做了一个很简单的版本以后进行扩充

目标:实现搜索Boost帮助文档

项目依赖的第三方库 Boost, cppjieba, jsoncpp
项目源码:https://github.com/Waorange/doc-searcher

使用中文分词是为了以后可以扩充用于中文文档搜索

项目具体内容

首先可以简单的分析下需求,即实现对Boost帮助文档的搜索,我们需要实现搜索因此需要建立索引,这里我们采用正排索引和倒排索引(后面讲),而需要建立倒排索引我们就需要实现分词,同时因为Boost帮助文档为一个一个HTML文件,因此需要将HTML文件进行处理,需要找到该HTML的标题,并且去除标签,然后进行进行分词。

通过分析我们可以分成三个模块

第一个模块是对HTML文档进行处理,解析出文档标题,文档内容,和对应的Boost官网的URL

首先通过提供的HTML文件路径,对其进行遍历,获取所有文件路径,然后根据文件路进行读取文件内容,将读取的文件内容构造成一个string对象,然后进行解析,首先对通过HTML 文件格式可以很容易的通过title标签可以找到标题,另外定义了一个结构体DocInfo结构体存储文件内容,其含有标题,内容࿰

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值