Scrapy之路第一篇(入门案例)
构建自己的数据王国
- 新建项目
- 明确目标
- 制作爬虫
- 保存数据
一、新建项目(scrapy startproject)
- 在爬取前,必须创建一个新的scrapy项目,进入自定义的项目目录中,运行下列命令:
scrapy startproject myspider
- 其中,myspider为项目名称,可以看到将会创建一个myspider文件夹,目录结构大致如下:
这些文件的主要作用列举如下:
- scrapy.cfg:项目的配置文件
- myspider/:项目的python模块,将会从这里引用代码
- myspider/items.py:项目的目标文件
- myspider/pipelines.py:项目的管道文件
- myspider/settings.py:项目的设置文件
- myspider/spiders/:存储爬虫代码目录
二、 明确目标(myspider/items.py)
准备抓取网站http://www.itcast.cn/channel/teacher.shtml网站里的所有讲师的姓名、职称和个人信息。
- Item用来定义结构化数据字段,用以保存爬取到的数据,有点像python中的dict,但是提供了一些额外的保护减少错误。
- 可以在myspider/items.py中创建一个Item类,并且通过在Item类中继续定义多个Field类(该类是继承了dict)来完善该Item类
- 接下来,创建一个ItcastItem类,和构建item模型(model)。