http://www.imooc.com/learn/563
优点是比较清楚的介绍了爬虫结构,让我对爬虫有了比较全面的了解。
比较有用内容摘要(一):
爬虫调度端:用来启动、停止、和监视爬虫
URL管理:对等待爬取和已经爬取的URL进行管理,简单来说就是为后续模块提供可供爬取的URL
网页下载器:将供爬取的URL的网页下载下来,组成供解析的字符串
网页解析器:将字符串解析
以后学的话可以这三个模块来进行分解,自己写的话也可以有意识模仿这个模式来写。
有用的内容(二):
urllib2:下载网页的三个方式: