搜索引擎分类和架构
搜索引擎分类
搜索引擎从来源上分为全网搜索引擎,由爬虫爬取互联网上的数据作为底层搜索数据支撑; 站内搜索引擎,由系统内部生成的数据作为底层搜索数据支撑。
全网搜索引擎架构
架构图
核心系统 (粉色部分)
- spider爬虫系统
- search&index建立索引与查询索引系统
- 一方面生成索引数据build_index
- 另一方面生成查询索引数据search_index
- rank打分排序系统
核心数据部分(紫色部分)
- web 网页库
- index索引数据库
写入系统
- 系统组成:有spider与search&index两个系统完成
- 输入:互联网上的网页
- 输出:正排倒排索引数据
- 流程:架构图中的1,2,3,4
- spider把互联网网页抓过来
- spider把互联网网页存储在网页库中
- build_index从网页中读取数据,完成分词
- build_index生成倒排索引index
检索系统
- 系统组成:有search&index与rank两个系统完成
- 输入:用户的检索词
- 输出:排好序的第一页检索结果
- 流程图:如架构图中的a,b,c,d
- search_index 获得用户的搜索词,完成分词
- search_index 查询倒排索引,获得"字符匹配"网页,完成初筛
- rank对初筛的结果进行打分排序
- rank对排序后的第一页结果返回
站内搜索引擎架构
架构图
站内搜索引擎与全网搜索引擎相比差异只有写入的地方
本文转自:https://blog.csdn.net/u012758088/article/details/78093582