爬虫主要流程 调度器 主调度程序主要是管理上图中其余几个模块的,然后循环的执行这几个模块进行爬取信息,直到条件达到(爬取够一定数量)跳出循环。 URL管理器 每爬取一个网页的有用信息后,并把有用的URL爬取下来放入URL管理器中,等下次循环的爬取可以直接从这个管理器中获取URL 网页下载器 这里用到下载网页的库是urllib2,通过库把url指定的网页的html源代码下载下来,存入urllib2对象 以下是几种简单的下载网页方式 代码演示