c 语言打造搜索引擎,GitHub - Worthy-Wang/LightSE: LightSE基于Linux 平台、C/C++语言实现。该项目是一个用于网页查询的轻量级搜索引擎。实现了从爬取网页，处...-CSDN博客

项目简介

服务器端基于Linux 平台、C/C++语言；客户端采用PHP 实现；爬虫采用Python 实现。

该项目是一个用于网页查询的轻量级搜索引擎。实现了从爬取网页，处理网页，显示结果等整个搜索引擎的流程。该项目分为三个阶段：线下阶段，线上阶段，优化阶段。线下部分使用tinyxml2解析爬取的网页，以此建立网页库，网页偏移库；再使用cppjieba分词库，TopK算法生成指纹信息作为去重标准并生成新的网页库与网页偏移库，去重后通过TF-IDF算法建立倒排索引库。线上部分则使用EchoLib框架搭建服务器，客户端发送查询词后，服务器计算文本特征并建立VSM模型，并使用余弦相似度算法匹配网页，将匹配的网页通过余弦值排序后使用jsoncpp封装后发送。优化部分则使用mysql作为网页存储的数据库，redis作为Cache缓存，log4cpp添加日志系统。

项目详细流程

该项目主要分为三个阶段：线下阶段，线上阶段，优化阶段。

线下阶段

首先使用tinyxml2解析python爬取的网页，将爬取的网页进行进行解析之后放入内存，再将内存中的网页整理格式之后，输出到磁盘，这也就时创建网页库与网页偏移库的过程。

读取网页库与网页偏移库，使用 cppjieba库对文章进行分词，再使用 TopK算法计算出每一篇文章最高频的k个单词，以这k个单词作为该文章的指纹信息，这样可以达到对文章去重的效果。根据去重之后的文章，建立新的网页库与新的网页偏移库。

使用 TF-IDF 算法建立倒排索引库。

补充：

TF-IDF算法

该算法实质上是一种计算权值的算法，主要用于计算出每一个词在每一篇文章中所占的权值，也可以理解成某个单词在某个文章中的重要程度。

举例：

有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

计算过程较为复杂，详细可参考：

百度百科：TF-IDF算法

倒排索引

倒排索引是通过属性值来查找记录。通常我们使用索引，是通过记录来查找属性，但是这样显然效率太低；于是倒排索引的出现帮助我们解决了效率的问题，因为它可以通过属性值找到对应的记录。

项目中建立的倒排索引：

unordered_map>> _invertIndexTable; //倒排索引 >

线上阶段

采用EchoLib并发服务器框架，此时假设客户端发送查找如何成为大师级程序员相关的网页。

服务器的处理流程如下：

将客户端发送的查询语句看成一篇文章，通过TF-IDF算法计算出各个单词在该篇文章中的权重。

通过倒排索引，查找出所有匹配的网页。这里的匹配代表着该网页中包含客户端查询词中的所有关键词。

使用余弦相似度算法计算出每一篇网页对应查询语句的余弦相似度，根据余弦相似度大小对网页进行排序。

为每一篇网页都形成摘要。

将文章封装成json字符串返回给客户端。

客户端解析json字符串并显示。

优化阶段

使用mysql数据库来存储网页。

使用redis来作为缓存cache。

log4cpp记录日志文件。

Demo展示

68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f32303230313130353137343434363436332e676966237069635f63656e746572

同时，在VScode的后台也记录了查询词，并且将其记录到了日志文件中，方便查看。

68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f3230323031313035313734333431322e706e673f782d6f73732d70726f636573733d696d6167652f77617465726d61726b2c747970655f5a6d46755a33706f5a57356e6147567064476b2c736861646f775f31302c746578745f6148523063484d364c7939696247396e4c6d4e7a5a473475626d56304c316476636e526f655639585957356e2c73697a655f31362c636f6c6f725f4646464646462c745f3730237069635f63656e746572