- 博客(2)
- 资源 (7)
- 收藏
- 关注
原创 搜索引擎-信息检索实践—网络爬虫
网络爬虫有两个任务:下载页面和发现URL。从请求队列中取出URL,下载对应页面,解析页面,找到链接标签。网络爬虫发现了没有遇到过的URL,将其加入请求队列。网络爬虫使用礼貌策略(politeness policy):网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间。管理员可以在网络服务器上保存robo
2013-07-31 20:50:55 2995
原创 URL- 含义及组成
URL (uniform resource locator) : 互联网的每个网页都有自己唯一的统一资源定位器,由3部分组成:通信协议,主机名,资源名。HTTP(hypertext transfer protocol):网页存储在网络服务器,使用超文本传输协议,和客户端软件交换信息。主机名:保存该网页的网络服务器的计算机名。资源名:该URL指向这台计算机的一个页面。举例:
2013-07-31 18:32:43 2078
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人