搜索引擎
guojiaqi007
这个作者很懒,什么都没留下…
展开
-
搜索引擎索引系统总结
搜索引擎可以分为4大系统:1)下载系统;2)分析系统;3)索引系统;4)查询系统 其中索引系统是整个搜索引擎的数据大本营,这里存储并索引数以亿计的网页。 索引系统的功能主要是实现按关键字检索文件。 过程: 1)将下载的网页进行分词。 2)根据分词建立正排索引。 结构如下: 意义为:一篇文章含有的关键字,文中命中的个数,命中的位置 3)根据正排索引建立倒排索引 建立原创 2013-02-22 09:07:33 · 613 阅读 · 0 评论 -
搜索引擎查询系统总结
接上篇《搜索引擎的索引系统总结》 上文提到最后索引建立结束是生成的文件是倒排索引,一个关键字对应若干个相关文件的标号。 当用关键字检索时。 第一步,根据用户提交的n个关键词 得到n个相关文件编号列表。 第二步,文件编号列表求交。 其中有很多的高效的技术实践。 此处只是简单的概述。 具体参见《走进搜索引擎》(梁斌) 第5章搜素引擎插叙系统。原创 2013-02-22 09:21:35 · 293 阅读 · 0 评论