【Boost】:searcher的建立(四)

本文详细介绍了C++搜索引擎Searcher的实现过程,包括初始化(创建Index对象并建立索引),搜索功能(分词、触发、合并排序和构建JSON输出),以及关键类如Index、InvertedList的使用。
摘要由CSDN通过智能技术生成

sercher主要分为两部分:初始化和查找。

在这里插入图片描述

在这里插入图片描述

一.初始化

初始化分为两步:1.创建Index对象;2.建立索引

在这里插入图片描述

二.搜索功能

搜索分为四个步骤

  1. 分词;
  2. 触发:根据分词找到对应的文档;
  3. 合并排序:按照权重降序排列;
  4. 构建:根据查找出的结构,拼接成新的网页。

1.分词

因为之前已经写好了分词函数,这里直接使用即可。

在这里插入图片描述

2.触发

跟据分词,获取该分词的所有倒排拉链。

在这里插入图片描述

3.合并排序

汇总查找结果,对查找内容按照相关性进行排序。这里使用了lambda表达式(如果不了解的可以看看我的博客C++11新特性)

在这里插入图片描述
当然也可以使用仿函数。

在这里插入图片描述

4.构建

对内容进行正排查找。把查找出来的内容构成一个json串,以方便我们进行序列化和反序列化。

首先安装jesoncpp(如果不会使用的,限于篇幅,可以去百度)

在这里插入图片描述

在这里插入图片描述

三.完整源代码

searcher.hpp

#include "index.hpp"
#include <algorithm>
#include <jsoncpp/json/json.h>

namespace ns_searcher
{
  class Searcher
  {
  private:
    ns_index::Index *index; // 供系统查找的接口
  public:
    Searcher()
    {
    }
    ~Searcher()
    {
    }

  public:
    // 初始化
    void InitSearcher(const std::string &input)
    {
      // 1.创建Index对象
      index = ns_index::Index::GetInstance();
      std::cout << "获取index单例成功....." << std::endl;

      // 2.创建索引
      index->BuildIndex(input);
      std::cout << "建立正排和倒排索引成功....." << std::endl;
    }
    // 查找
    void Search(const std::string &query, std::string *json_string)
    {
      // 1.分词
      std::vector<std::string> words; // 存放词
      ns_util::JiebaUtil::CutString(query, &words);

      // 2.触发:根据分词找到对应倒排拉链(注意:要忽略大小写)
      // 为了方便,这里经过了typedef,把倒排hash的second(vector<InvertedElem>)重命名成了InvertedList
      ns_index::InvertedList inverted_list_all; // 存放所有找到的文档的倒排拉链
      for (auto &s : words)
      {
        boost::to_lower(s);                                                // 忽略大小写
        ns_index::InvertedList *inverted_list = index->GetInvertedList(s); // 根据string获取倒排拉链
        if (nullptr == inverted_list)
          continue;
        inverted_list_all.insert(inverted_list_all.end(), inverted_list->begin(), inverted_list->end());
      }

      // 3.进行汇总排序
      class Less
      {
      public:
        bool operator()(const ns_index::InvertedElem &e1, const ns_index::InvertedElem &e2)
        {
          return e1.weight > e2.weight;
        }
      };
      std::sort(inverted_list_all.begin(), inverted_list_all.end(), Less());
      // std::sort(inverted_list_all.begin(), inverted_list_all.end(), [](const ns_index::InvertedElem &e1, const ns_index::InvertedElem &e2)
      //          { e1.weight > e2.weight; });

      // 4.构建jsoncpp串
      Json::Value root;
      for (auto &item : inverted_list_all)
      {
        ns_index::DocInfo *doc = index->GetForwardIndex(item.id); // 通过正排索引获取文档
        if (nullptr == doc)
          continue;
        Json::Value elem;
        elem["title"] = doc->title;
        elem["desc"] = doc->content; // 我们只需要展示一部分内容即可,这里以后会改
        elem["url"] = doc->url;

        root.append(elem);
      }
      Json::StyledWriter writer;
      *json_string = writer.write(root); // 写入目标文件
    }
  };
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

咸蛋挞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值