在上篇教程中,已经尝试安装好Scrapy,并且解决好了环境问题,这篇文章将创建一个Scrapy项目
包含的步骤主要为:
1、创建一个Scrapy项目
2、定义提取的字段信息Item
3、编写爬取网站的 spider 并提取 Item
4、编写 Item Pipeline 来存储提取到的Item(即数据)
创建爬虫项目
开始爬取之前,必须创建一个新的Scrapy项目。 进入希望存储代码的目录中,运行下列命令:
scrapy startproject Alice
该命令将创建一个project项目,名称为Alice,并包含下列内容的 Alice 目录,:
Alice/
scrapy.cfg
Alice/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
这些文件分别是:
- scrapy.cfg: 项目的配置文件
- Alice: 该项目的python模块。之后您将在此加入代码。
- Alice/items.py: 项目中的item文件.
- Alice/pipelines.py: 项目中的pipelines文件.
- Alice/settings.py: 项目的设置文件.
- Alice/spiders/: 放置spider代码的目录.
定义保存数据的容器Item
Item 是保存爬取到的数据的容器,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
通过创建一个 scrapy.Item 类, 并且定义类型为 scrapy.Fi