1、描述:
网页搜集的过程是从URL库(初始时包含用户指定的起始种子URL集合,可以是1个或多个)获得输入,解析URL中标明的Web服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从其中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程的递归进行,直到URL库为空。
搜索引擎为了提供检索服务,需要保存网页原文。网页搜集子系统不但要能够获取以.html, .htm,.txt结尾的URL对应的网页(在本章后面的小节对于搜集信息类型会有更详细的阐述),还应该能够获取不是以.html结尾的URL,比如.pdf,.doc,因为.pdf,.doc等文件可以通过转换程序生成为.html或者.txt文件,同样为搜索引擎提供检索服务。作为搜索引擎的起始流程,搜集的网页要按照一定的格式存储,便于后续组织和提供服务。
2、图示