凡上网者都用过搜索引擎,Altavista、Infoseek 、Hotbot、网络指南针、北大天网和华好网景的ChinaOK等等,它们的索引数据库涉及Internet上超过1亿的页面(Altavista和Hotbot),北大天网也收集了32万个www页面(国内),索引数据库的建立需要访问这些页面然后进行索引,如何做到对如此多的页面的访问,现在的搜索引擎无论是针对英文还是中文,都是采用网上机器人来实现网上搜索的(Yahoo!是个例外)。
网上机器人
网上机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取在Internet上的信息。机器人利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜象等。
机器人寻找WWW文档的算法
机器人要在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。使用的是超文本,指向其它文档的URL是隐藏在文档中,需要从中分析提取URL;机器人一般都用于生成索引数据库。所有WWW的搜索程序都有类似步骤:
1) 机器人从起始URL列表中取出URL并从网上读取其内容;
2) 从每一个文档中提取某些信息并放入索引数据库中;
3) 从文档中提取指向其它文档的URL,并加入到URL列表中;
4) 重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间
网上机器人
网上机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取在Internet上的信息。机器人利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜象等。
机器人寻找WWW文档的算法
机器人要在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。使用的是超文本,指向其它文档的URL是隐藏在文档中,需要从中分析提取URL;机器人一般都用于生成索引数据库。所有WWW的搜索程序都有类似步骤:
1) 机器人从起始URL列表中取出URL并从网上读取其内容;
2) 从每一个文档中提取某些信息并放入索引数据库中;
3) 从文档中提取指向其它文档的URL,并加入到URL列表中;
4) 重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间