上节我们讲了Scrapy框架的安装及遇到错误如何解决,本节我们正式进入Scrapy框架的应用阶段。
在开始爬取之前,首先我们必须创建一个新的Scrapy项目,创建一个Scrapy项目本质上就是创建一种文件结构。
1) 在电脑上创建一个文件夹用来保存项目文件,建议文件夹的命名用英文表示,不要使用汉字。
这里我在d盘根目录下创建一个名为spider_file的文件夹
2) 打开命令窗口,创建scrapy工程
创建工程命令格式为:scrapy startproject 工程名
如下图所示
其中cd /d 路径 用来切换到指定路径,如果是跨盘符需要使用/d选项。因为默认位置是在c盘,切到C盘以外的盘符就跨盘符了,需要加这个选项,后跟切换的路径。
3) 工程创建成功之后,在工程内部创建一个爬虫
一个工程内是可以创建多个爬虫的cd myscrapy #切换到工程目录
scrapy genspider 爬虫名称 爬虫域名
{!-- PGC_COLUMN --}
如下图所示:
这个时候我们打开工程文件夹myspider,如下图示所示,已经创建好了。
在pycharm中打开工程文件夹如下图示:
工程目录结构如下图所示:
工程目录下的文件介绍:
(1) myspider/:这个是python模块,之后你添加的代码将放在该目录下。
(2) myspider/spiders:放置爬虫代码的目录,主要涉及页面内容的解析代码
(3) myspider/items.py 项目中的item文件,主要用来创建一种数据结构或容器,用来存放解析出来的数据,根据数据的类型设置一些字段名,就像我们创建一个Excel表格一样,第一步是需要对每个Excel的列起一个列名。
(4) middlrwares.py 中间件文件,主要用来对请求信息和响应内容做预处理,可以根据自己的需求进行扩展,相对其他组件,该文件用的相对比较少。后面举例给大家演示其用法。
(5) myspider//pipelines.py: 项目中的pipelines文件。
主要将解析出来的数据按照item文件中定义的结构去做进一步的处理比如数据的过滤,清洗,存储和展示等。
(6)settings文件:项目的设置文件比如配置请求头信息,设置爬取延时,数据库连接信息等
(7)scrapy.cfg: 项目部署配置文件
※小结:
本节主要分享如何使用scrapy框架创建一个爬虫工程及项目中文件的介绍。
创建步骤可总结为:
1) 创建一个文件夹用来保存项目文件
2) 进入文件夹创建一个爬虫工程
命令格式为:scrapy startproject 工程名
3) 进入工程文件夹,创建一个爬虫
创建爬虫命令格式为:
scrapy genspider 爬虫名称 爬虫域名
其中”爬虫域名”不是必须的,可以省略。
注意:在一个爬虫工程文件中,可以同时创建多个爬虫,如果创建的命令忘了也没关系,你可以在命令窗口输入:scrapy –help
查看命令格式及相关单词,显示如下图所示:
创建完成,scrapy框架会帮我们生成一些目录及文件,我们只需要在这些文件中补充我们的代码就可以构建一个完整的爬虫程序,这个我们放在下一节讲解。如果你认为本节对你有价值的话,请给我点个赞。