Scrapy框架的项目目录结构及常用命令

最新推荐文章于 2024-08-05 20:06:05 发布

墨染柒香

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量4.1k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_35187510/article/details/79980960

版权

本文介绍了Scrapy框架的项目目录结构，包括scrapy.cfg配置文件、items.py数据容器、pipelines.py处理管道、settings.py设置和middlewares.py中间件。此外，还概述了Scrapy的常用命令，如全局命令的fetch用于展示爬取过程，项目命令的bench用于测试硬件性能。

摘要由CSDN通过智能技术生成

一：Scrapy的项目目录结构

创建Scrapy框架的项目需要使用命令：scrapy startproject 项目名。如下，创建了一个名为firstpypro的scrapy项目：

F:\NEW>scrapy startproject firstpypro
New Scrapy project 'firstpypro', using template directory 'c:\\users\\111\\appda
ta\\local\\programs\\python\\python36\\lib\\site-packages\\scrapy\\templates\\pr
oject', created in:
    F:\NEW\firstpypro

You can start your first spider with:
    cd firstpypro
    scrapy genspider example example.com

创建完毕之后，对应的文件目录下就会出现一个文件夹，其中文件夹名与项目名相同（即为firstpypro），其下包含一个同名的子文件和scrapy.cfg文件。

scrapy.cfg：爬虫项目的配置文件。

__init__.py：爬虫项目的初始化文件，用来对项目做初始化工作。

items.py：爬虫项目的数据容器文件，用来定义要获取的数据。

pipelines.py：爬虫项目的管道文件，用来对items中的数据进行进一步的加工处理。

settings.py：爬虫项目的设置文件，包含了爬虫项目的设置信息。

middlewares.py：爬虫项目的中间件文件，

二：Scrapy项目的常用命令

首先，我们先查看Scrapy项目的全部命令（分为全局命令和项目命令）：

一：全局命令

（1）fetch：用来显示爬虫爬取的过程

F:\NEW>scrapy fetch --headers  --nolog http://www.baidu.com
> Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
> Accept-Language: en
> User-Agent: Scrapy/1.