Scrapy命令行工具
目录
前言
命令行工具对于scrapy项目来说很重要,会经常使用,下面介绍常用命令及如何使用该工具
一、初探命令行工具
可以先运行不带参数的 Scrapy 工具,它将打印一些使用帮助和可用命令:
Scrapy X.Y - project: myproject #当前活动的项目,如不在项目中运行将显示no active project
Usage: #使用方法
scrapy <command> [options] [args]
Available commands: #可用命令
crawl Run a spider
fetch Fetch a URL using the Scrapy downloader
[...]
二、深入使用
1.创建项目
scrapy startproject <project_name> [project_dir] #project_dir是项目目录,可以不指定,直接在想要创建项目的目录下运行命令行
2.创建爬虫文件
一般进入spider文件夹创建
scrapy genspider [-t template] <name> <domain or URL>
'''
-t template:用于选择爬虫模板
<name>:爬虫名称
<domain or URL> :爬虫域名
'''
例如:
scrapy genspider baidu baidu.com
3.运行爬虫
scrapy crawl <spider>
4.调试爬虫
scrapy shell [url]
5.测试性能
scrapy bench
'''
测试电脑爬取速度性能
'''
三.Shell的简单使用
- Scrapy shell 是一个交互式 shell
- 可以在其中尝试非常快速地调试您的抓取代码,而无需运行爬虫。
- 开发和调试爬虫的宝贵工具
在命令行中输入 scrapy shell
进入shell环境
接下来可以对想要进行调试的url进行调试
1.fetch
fetch(url) #从给定的url获取对应的请求,响应对象
2.操作Response对象和Selector对象
view(response) #在您的本地 Web 浏览器中打开给定的响应以进行检查
response.status #返回状态码
还可以使用选择器
response.css('')
response.xpanth('')
scrapy shell和python shell 一样,可以干很多事情,这里只是简单写了两条,要熟练使用,他将在我们调试爬虫时起到大作用。
总结
本文仅仅简单介绍了scrapy命令行以及scrapy shell常用的一部分,还有很多其他命令,大家可以翻看相关文档进行学习。