学习任务 URL管理器 概 念 : 管理待抓取URL集合和已抓取URL集合 网页下载器 概 念:将互联网上URL对应的网页下载到本地的工具,是爬虫的 核心组件。 网页解析器 概念: 一方面会解析出有价值的数据,另一方面,由于每一个页面都 有很多指向其它页面的网页,这些URL被解析出来之后,可以 补充进URL管理器。 爬虫流程图