说明
scrapy命令行官方文档网址
https://docs.scrapy.org/en/latest/topics/commands.html
windows 命令窗口或pycharm terminal Windows PowerShell 窗口执行命令
显示可用命令
1、显示可用的命令行工具
scrapy -h
2、可显示所有可用的命令
scrapy -h #
创建项目
scrapy startproject myproject
进入项目中目录
cd myproject
查看spider模板
scrapy genspider -l
#Available templates:
#basic
#crawl
#csvfeed
#xmlfeed
创建spider
默认情况为baseic模板:
scrapy genspider mydomain mydomain.com
检查程序错误
scrapy check
返回可执行scrapy文件
scrapy list
返回日志和网页源码
帮助我们下载网页,将网页源代码返回(前面是一些日志,后面是源代码),也可以加一些参数,得到headers,并不输出日志文件
scrapy fetch http://www.example1.com
scrapy fetch --nolog --headers http://www.example1.com
url内容下载
该命令会将网页document内容下载下来,并且在浏览器显示出来
因为现在很多网站的数据都是通过ajax请求来加载的,这个时候直接通过requests请求是无法获取我们想要的数据,所以这个view命令可以帮助我们很好的判断
scrapy view http://www.example1.com
scrapy shell交互
通过scrapy shell url地址进入交互模式,这里最后给我们返回一个response,这里的response就和我们通requests请求网页获取的数据是相同的。
view(response)会直接在浏览器显示结果和response.text 获取网页的文本基本是一样的
scrapy shell http://www.example1.com
进入交互模式输入交互命令(quit()退出)
运行爬虫文件
进入到项目目录中,运行spider文件(这里为mydomain.py)
scrapy runspider mydomain.py
获取配置信息
获取当前的配置信息,以下可以获取这个命令的所有帮助信息
scrapy settings -h
查看当前版本
scrapy version
查看所有所属依赖库的版本
scrapy version -v #
测试效率
测试当前每分钟的抓取效率
scrapy bench