scrapy 命令行操作

最新推荐文章于 2022-02-11 12:39:04 发布

c_virus

最新推荐文章于 2022-02-11 12:39:04 发布

阅读量194

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42063599/article/details/107401774

版权

1.创建项目

scrapy startproject myproject

cd myproject

2.创建爬虫

scrapy genspider myspider www.baidu.com

scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置

3.运行爬虫

scrapy crawl myspider

4.错误检查

scrapy check ----检查爬虫的语法错误

5.列出爬虫

scrapy list --返回项目里spider名称

6.测试网页

scrapy fetch www.baidu.com

scrapy fetch --nolog www.baidu.com ----不会生成日志

scrapy fetch --nolog --headers www.baidu.com --输出headers

scrapy fetch --nolog --no-redirect---不会重定向

7.请求网页把网页源代码保存成文件,在用浏览器打开(调试工具)

scrapy view http://www.baidu.com

8.命令行交互模式shell

scrapy shell http://www.baidu.com

request---请求的网页

response--请求网页的返回结果

response.text请求结果

response.headers--headers

view(response)---在网页上打开返回的结果(如果能显示出来,说明是静态网页,能直接爬,如果没显示,说明是Ajax加载的网页)

response.xpath("")--用xpath解析网页

9.解析网页的内容

scrapy parse http://www.baidu.com -c parse ---前面是parse方法,后面是callback调用解析的parse方法

10.获取配置信息

scrapy settings --get MONGO_URL---获取配置信息

11.运行spider文件

scrapy runspider myspider.py---直接运行myspider文件(参数是文件名称)

12.输出版本

scrapy version

scrapy version -v---输出依赖库的版本

13.测试

scrapy bench---测试爬行速度,反应当前运行性能

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。