Scrapy框架的项目目录结构及常用命令

本文介绍了Scrapy框架的项目目录结构,包括scrapy.cfg配置文件、items.py数据容器、pipelines.py处理管道、settings.py设置和middlewares.py中间件。此外,还概述了Scrapy的常用命令,如全局命令的fetch用于展示爬取过程,项目命令的bench用于测试硬件性能。
摘要由CSDN通过智能技术生成

一:Scrapy的项目目录结构

  创建Scrapy框架的项目需要使用命令:scrapy startproject  项目名。如下,创建了一个名为firstpypro的scrapy项目:

F:\NEW>scrapy startproject firstpypro
New Scrapy project 'firstpypro', using template directory 'c:\\users\\111\\appda
ta\\local\\programs\\python\\python36\\lib\\site-packages\\scrapy\\templates\\pr
oject', created in:
    F:\NEW\firstpypro

You can start your first spider with:
    cd firstpypro
    scrapy genspider example example.com

  创建完毕之后,对应的文件目录下就会出现一个文件夹,其中文件夹名与项目名相同(即为firstpypro),其下包含一个同名的子文件和scrapy.cfg文件。

  scrapy.cfg:爬虫项目的配置文件。

  __init__.py:爬虫项目的初始化文件,用来对项目做初始化工作。

  items.py:爬虫项目的数据容器文件,用来定义要获取的数据。

  pipelines.py:爬虫项目的管道文件,用来对items中的数据进行进一步的加工处理。

  settings.py:爬虫项目的设置文件,包含了爬虫项目的设置信息。

  middlewares.py:爬虫项目的中间件文件,

二:Scrapy项目的常用命令  

  首先,我们先查看Scrapy项目的全部命令(分为全局命令和项目命令):


  一:全局命令

  (1)fetch:用来显示爬虫爬取的过程

F:\NEW>scrapy fetch --headers  --nolog http://www.baidu.com
> Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
> Accept-Language: en
> User-Agent: Scrapy/1.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值