搜索引擎体系结构概述
思维导图 http://www.xmind.net/share/sndnyangd/search-engine-architecture-1/
看的是清华大学和百度合作的搜索引擎基础课程的教材《搜索引擎技术基础》,这里写的是第四章——搜索体系结构概述,截图在这儿也放不下,千言万语也不如一张图,所以,就用这种方式来写吧。
之前,不知道倒排索引是何物,现在终于知道,合拢索引的索引项是词项,而正排索引的是文档,如此而已。
在CS101写的搜索引擎中,内容索引子系统已经是用词项了,只是不知道这个概念而已。
照书中所说,搜索引擎主要由数据抓取、内容索引、内容检索、链接结构分析四部分组成。回顾在CS101中,写的那个简易的搜索引擎:
其中,爬虫是必须有的,也就是CS101中已经用PYTHON写了基础的数据抓取子系统,不过没有提到涉及的各种网络协议,也没有其它的策略。