爬虫调度端
启动爬虫,停止爬虫,监视爬虫的运行情况
爬虫
URL管理器
对将要爬取的和已经爬取过的URL进行管理;可取出待爬取的URL,将其传送给“网页下载器”。
网页下载器
将URL指定的网页下载下来,存储为字符串,之后提交给网页解析器
网页解析器
一方面:解析出价值数据
另一方面:将解析到的url(未爬取过的url)返回给URL管理器
启动爬虫,停止爬虫,监视爬虫的运行情况
对将要爬取的和已经爬取过的URL进行管理;可取出待爬取的URL,将其传送给“网页下载器”。
将URL指定的网页下载下来,存储为字符串,之后提交给网页解析器
一方面:解析出价值数据
另一方面:将解析到的url(未爬取过的url)返回给URL管理器