一.Scrapy介绍
经常发现使用python编写爬虫的相关文章,可以使用urllib2便可以简单的实现,当然如果涉及到更进阶的东西比如爬取时的网站认证、内容的分析处理、重复抓取、分布式爬取等等也时间很复杂的事。所以实现一个鲁棒,功能丰富的爬虫也并不是容易的事。
本着不重复造轮子的原则,在google上或通过GitHub可以检索到相关并成熟的针对网站爬取的框架,Scrapy就是最著名并被广泛认可与使用的框架之一,源码托管在GitHub上(https://github.com/scrapy/scrapy),官网(http://scrapy.org)。
官方描述:Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing。
官方文档对其详细描述:
“Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。”