前言:
本篇是在读完july作品《网络搜索引擎》,自己略做小结,以备自己日后查看
1.网络搜索引擎的系统框架(简言之,搜索的过程)
S1. 从互联网上抓取网页;
该工作由网络蜘蛛程序实现
(根据网页超链接,和网页的URL(Unifrom Resource Locator网页地址),从而获取整个互联网的信息);
S2. 建立索引数据库;
数据的索引分为三个步骤:网页内容的提取、词的识别、标引库的建立。
标引库的建立:文档标引分配每个网页一个唯一的docID号,根据docID标引出在这个网页中出现过多少过wordID,每个wordID出现的次数、位置、大小写格式等,形成docID对应wordID的数据列表;
由索引系统程序对收集到的网页进行分析整理(进行相关度的计算),得到每个网页与超链中的关键字,网页内容的相关度,建立网页索引数据库。
S3. 在索引数据库中搜索;
客户输入搜索关键字,搜索系统程序在网页索引数据库中进行查找符合关键字的所有网页。
S4. 对搜索结果进行处理排序;
根据索引库中相关度信息的记录,综合相关度信息和网页级别形成的相关度,将各个网址进行排序,页面生成系统将索引结果的链接地址和页面的部分摘要综合起来返回给客户。
这个处理过程响应用户的搜索请求的过程,
用户输入搜索关键字,搜索服务器对应关键词字典,把搜索关键词转化为wordID,然后在标引库中得到docID列表,对docID列表进行扫描和 wordID的匹配,提取满足条件的网页,根据相关度的数值返回前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户。如果用户查看的第二页或者第多少页,重新进行搜索,把排序结果中在第K+1到2*K的网页组织返回给用户。
2.排序技术对每家搜索引擎公司的至关重要的:
Google应用PageRank,即网页级别的排序技术(效率最高),其基本原理是:
1. 链接指向A的网页越多,A的级别越高。N越大, A的级别越高;
2. 链接指向A的网页,其网页级别越高, A的级别也越高。网页N级别越高, A的级别也越高;
3. 链接指向A的网页,其链出的个数越多,A的级别越低。网页N链出个数越多,A的级别越低。