scrapy的文件目录结构及相应命令

最新推荐文章于 2023-06-01 17:39:39 发布

QJM1995

最新推荐文章于 2023-06-01 17:39:39 发布

阅读量2.3k

点赞数

文章标签： python 爬虫 scrapy spider 命令

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QJM1995/article/details/79228376

版权

scrapy的文件目录结构及相应命令

目录结构

主要文件：

cfg，配置文件，指定路径

items，指定保存文件的数据结构

middlewares，中间件，处理request和reponse等相关配置

pipelines，项目管道，可以输出items

settings，设置文件，指定项目的一些配置

爬虫文件spiders

name指定名称，文件唯一标识

allowed_domains以及start_urls标识开始的网址

parse执行的具体操作

scrapy操作命令

scrapy #弹出相应的操作，版本号、命令等等

scrapy startproject 项目名 #创建一个项目

cd 项目名 #进入项目

scrapy genspider 爬虫名要爬的网址 #创建第一个爬虫，创建爬虫时有四个模板，指定要创建的爬虫类型

scrapy genspider -t 模板爬虫名要爬网址 #一般用的有basic（默认）和crawl

scrapy crawl 爬虫名 -o 文件名 #运行爬虫，并输出特定文件（文件可不输出）

scrapy check #检查代码是否存在错误，并且指出错误

scrapy list #返回项目里所有的爬虫名称

scrapy edit 爬虫名 #在命令行进行编辑（不方便，一般不用）

scrapy parse 网址 --callback 方法 #输出项目爬虫里执行将要输出的内容

scrapy settings -h 配置名 #获取配置信息

scrapy runspider 爬虫名.py #运行爬虫文件

scrapy version -v #查看scrapy以及依赖库的版本

scrapy bench #测试使用，测试当前的爬行速度，和电脑性能有关

cd .. #退出项目

scrapy fetch 网址 #请求这个网址并且返回内容

命令 --nolog #不显示日志

命令 --headers #返回响应头信息

命令 --no-redirect #网址重定向

scrapy view 网址 #保存一个网址成文件，并且从浏览器打开，调试工具

scrapy shell 网址 #进入shell模式，进行调试运行，查看相应的命令输出，比较方便

其他命令一般就不怎么使用了，可登陆官网进行查看全部命令及用法。

这其中有不合适或者不正确的地方欢迎指正，我的QQ号码：2867221444（乔金明），谢谢，也可以相互交流下，备注信息随意，只要能看得出是开发者或者学习者即可。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。