scrapy中文官方文档:点击打开连接html
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途普遍,能够用于数据挖掘、监测和自动化测试,
Scrapy吸引人的地方在于它是一个框架,任何人均可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
1.建立项目
在开始爬取以前,您必须建立一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令:python
scrapy startproject day1
2.定义item
Item 是保存爬取到的数据的容器;其使用方法和python字典相似, 而且提供了额外保护