python爬虫自学宝典——运行spider

最新推荐文章于 2023-08-04 16:48:38 发布

良木66

最新推荐文章于 2023-08-04 16:48:38 发布

阅读量1.9k

点赞数

分类专栏： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44503987/article/details/105051618

版权

scrapy 专栏收录该内容

14 篇文章 4 订阅

订阅专栏

前文回顾
经过前面的讲解，我们已经写了一个小程序，用来爬取我的博客主页的博客信息。但是我们还没有将这个程序运行，什么意思呢？就是光说不练，假把式；光练不说，傻把式。运行虫子，很简单。
首先，用dos定位到你的项目目录中，然后在命令行中输入：

scrapy crawl demo_spider

demo_spider是我的虫子名，正确的命令格式——scrapy crawl spider_name是运行虫子的命令，运行上面命令，可以看到我们所做的工作结果如下：

在这里插入图片描述
记住，定位只需要定位到项目目录下，而不是spider目录下。虽然运行用的是spider虫子名，但是框架会自动配置检索运行，不必劳烦我们操心。

细心的朋友可以发现如下问题，为什么我的博客文章那么多，只能爬取一页呢？是不是虫子太笨了，其实不然，是我们没设置好。那么如何爬取下一页的信息呢？须知一般用虫子爬信息，大多都是以万起步的。那么大的数据量，一个页面肯定放不下，只能下一页，next，下一页了。下一章，讲如何爬取下一页information。

欲知后事如何，且听下回分解。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫自学宝典——运行spider

经过前面的讲解，我们已经写了一个小程序，用来爬取我的博客主页的博客信息。但是我们还没有将这个程序运行，什么意思呢？就是光说不练，假把式；光练不说，傻把式。运行虫子，很简单。首先，用dos定位到你的项目目录中，然后在命令行中输入：scrapy crawl demo_spiderdemo_spider是我的虫子名，正确的命令格式——scrapy crawl spider_name是运行虫子的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。