搜索引擎可以分为4大系统:1)下载系统;2)分析系统;3)索引系统;4)查询系统
其中索引系统是整个搜索引擎的数据大本营,这里存储并索引数以亿计的网页。
索引系统的功能主要是实现按关键字检索文件。
过程:
1)将下载的网页进行分词。
2)根据分词建立正排索引。
结构如下:
意义为:一篇文章含有的关键字,文中命中的个数,命中的位置
3)根据正排索引建立倒排索引
建立过程:
参考:《走进搜素引擎》第二版 梁斌
搜索引擎可以分为4大系统:1)下载系统;2)分析系统;3)索引系统;4)查询系统
其中索引系统是整个搜索引擎的数据大本营,这里存储并索引数以亿计的网页。
索引系统的功能主要是实现按关键字检索文件。
过程:
1)将下载的网页进行分词。
2)根据分词建立正排索引。
结构如下:
意义为:一篇文章含有的关键字,文中命中的个数,命中的位置
3)根据正排索引建立倒排索引
建立过程:
参考:《走进搜素引擎》第二版 梁斌