深入浅出搜索架构引擎、方案与细节（上）

最新推荐文章于 2024-03-12 10:35:37 发布

崛起的小草

最新推荐文章于 2024-03-12 10:35:37 发布

阅读量1k

点赞数

分类专栏：算法文章标签：搜索引擎数据架构算法

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、缘起
《100亿数据1万属性数据架构设计》文章发布后，不少朋友对58同城自研搜索引擎E-search比较感兴趣，故专门撰文体系化的聊聊搜索引擎，从宏观到细节，希望把逻辑关系讲清楚，内容比较多，分上下两期。
主要内容如下，本篇（上）会重点介绍前三章：
（1）全网搜索引擎架构与流程
（2）站内搜索引擎架构与流程
（3）搜索原理、流程与核心数据结构
（4）流量数据量由小到大，搜索方案与架构变迁
（5）数据量、并发量、策略扩展性及架构方案
（6）实时搜索引擎核心技术

可能99%的同学不实施搜索引擎，但本文一定对你有帮助。

二、全网搜索引擎架构与流程
全网搜索的宏观架构长啥样？
全网搜索的宏观流程是怎么样的？
这里写图片描述
全网搜索引擎的宏观架构如上图，核心子系统主要分为三部分（粉色部分）：
（1）spider爬虫系统
（2）search&index建立索引与查询索引系统，这个系统又主要分为两部分：
一部分用于生成索引数据build_index
一部分用于查询索引数据search_index
（3）rank打分排序系统

核心数据主要分为两部分（紫色部分）：
（1）web网页库
（2）index索引数据

全网搜索引擎的业务特点决定了，这是一个“写入”和“检索”完全分离的系统：
【写入】
系统组成：由spider与search&index两个系统完成
输入：站长们生成的互联网网页
输出：正排倒排索引数据
流程：如架构图中的1，2，3，4
（1）spider把互联网网页抓过来
（2）spider把互联网网页存储到网页库中（这个对存储的要求很高，要存储几乎整个“万维网”的镜像）
（3）build_index从网页库中读取数据，完成分词
（4）build_index生成倒排索引

【检索】
系统组成：由search&index与rank两个系统完成
输入：用户的搜索词
输出：排好序的第一页检索结果
流程：如架构图中的a，b，c，d
（a）search_index获得用户的搜索词，完成分词
（b）search_index查询倒排索引，获得“字符匹配”网页，这是初筛的结果
（c）rank对初筛的结果进行打分排序
（d）rank对排序后的第一页结果返回

三、站内搜索引擎架构与流程
做全网搜索的公司毕竟是少数，绝大部分公司要实现的其实只是一个站内搜索，站内搜索引擎的宏观架构和全网搜索引擎的宏观架构有什么异同？
以58同城100亿帖子的搜索为例，站内搜索系统架构长啥样？站内搜索流程是怎么样的？
这里写图片描述
站内搜索引擎的宏观架构如上图，与全网搜索引擎的宏观架构相比，差异只有写入的地方：
（1）全网搜索需要spider要被动去抓取数据
（2）站内搜索是内部系统生成的数据，例如“发布系统”会将生成的帖子主动推给build_data系统

看似“很小”的差异，架构实现上难度却差很多：全网搜索如何“实时”发现“全量”的网页是非常困难的，而站内搜索容易实时得到全部数据。

对于spider、search&index、rank三个系统：
（1）spider和search&index是相对工程的系统
（2）rank是和业务、策略紧密、算法相关的系统，搜索体验的差异主要在此，而业务、策略的优化是需要时间积累的，这里的启示是：
a）Google的体验比Baidu好，根本在于前者rank牛逼
b）国内互联网公司（例如360）短时间要搞一个体验超越Baidu的搜索引擎，是很难的，真心需要时间的积累

四、搜索原理与核心数据结构
什么是正排索引？
什么是倒排索引？
搜索的过程是什么样的？
会用到哪些算法与数据结构？

前面的内容太宏观，为了照顾大部分没有做过搜索引擎的同学，数据结构与算法部分从正排索引、倒排索引一点点开始。

提问：什么是正排索引（forward index）？
回答：由key查询实体的过程，是正排索引。
用户表：t_user(uid, name, passwd, age, sex)，由uid查询整行的过程，就是正排索引查询。
网页库：t_web_page(url, page_content)，由url查询整个网页的过程，也是正排索引查询。

网页内容分词后，page_content会对应一个分词后的集合list。
简易的，正排索引可以理解为Map