1、新建项目
(1)创建一个新的Scarpy项目,进入自定义的项目目录中,运行命令:`scrapy startproject mySpider`
说明:(1)mySpider为项目名称
(2)运行这条命令后,会生成一个mySpider的文件夹,里面存放创建的spider项目
(2)mySpider的目录结构
(3)各个主要文件的作用
`scrapy.cfg`:项目的配置文件
`mySpider/`:项目的python模块,将会从这里引用代码
`mySpider/items.py`:项目的目标文件
`mySpider/pipelines.py`:项目的管道文件
`mySpider/settings.py`:项目的设置文件
`mySpider/spiders/`:存储爬虫代码的目录
2、明确目标(mySpider/items.py)
爬取网站里的所有讲师的姓名、职称和个人信息:http://www.itcast.cn/channel/teacher.shtml
(1)打开mySpider目录下的items.py
(2)item定义结构化数据字典,用来保存爬取到的数据,类似于python中的字典,但是提供了一些额外的保护减少错误
(3)可以通过创建一个继承自scrapy.Item的类,并且定义类型为scrapy.Field的类属性来定义一个Item
(4)创建一个It