python中scrapy可以爬取多少数据_使用Scrapy爬取大规模数据

最新推荐文章于 2021-01-29 04:29:54 发布

weixin_39567943

最新推荐文章于 2021-01-29 04:29:54 发布

阅读量1.1k

点赞数

文章标签： python中scrapy可以爬取多少数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39567943/article/details/111426578

版权

本文介绍了使用Python Scrapy框架爬取简书签约作者粉丝的实践经验，包括选择入口用户、处理分页和数据去重，以及Scrapy的回调机制。最终爬取到超过65535行数据，去重后仍有64714条，展示了Scrapy在爬取大规模数据的能力。

摘要由CSDN通过智能技术生成

系统学习了解Python爬虫有20天时间了，做了一些爬虫小实验，如：

但是以上爬取的数据量都不大，最多的有一千多数条数据。于是想做一次大数据量的爬取。选择的数据源是简书用户，使用的是Scrapy框架。同时也想对简书的用户做一个数据分析。

要爬取大量数据，使用Scrapy要考虑的是新的url在哪里产生，解析的方法如何循环调用，也就是爬取的深度和广度。在Scrapy官方文档上的案例过于简单，实现的过程遇到不少问题，如scrapy中的方法如何调度，如何返回，循环中如何去抓取需要的另一个字段，再如何返回等等，有些可能是我思维的局限，问题先记下，一步步解决。

一、考虑爬虫从哪里入口？

简书的用户id不是一个自增的序列数，无法使用一个循环就可以跑下所有用户。一开始我是想从一篇热门文章的阅读数或者喜欢数开始抓取用户，热门文章的阅读数能达到6W+，喜欢数在6～7K。但下一步数据再怎么爬，没有想好，阅读和喜欢的用户都是最普通用户，他们的关注和粉丝很少，而且阅读用户是Ajax数据。还有一个问题，数据如何去重。

后来，我再看上次爬取的简书签约作者时，发现有8个签约作者粉丝都超过1W，彭小六粉丝近3W。于是就觉得从这里作为入口，会是一个比较好的方案，简单易行，使用几个不多的url作为待爬取的入口，便可以抓取到大量的数据。最后我选择几个入口用户是，简书、彭小六、剽悍一只猫、入江之鲸、陶瓷兔子5个用户url，爬取他们的粉丝用户信息。

没有把所有签约作者url一起列为入口，是因为我现在数据存为csv格式，

最低0.47元/天解锁文章

weixin_39567943

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python中scrapy可以爬取多少数据_使用Scrapy爬取大规模数据

系统学习了解Python爬虫有20天时间了，做了一些爬虫小实验，如：但是以上爬取的数据量都不大，最多的有一千多数条数据。于是想做一次大数据量的爬取。选择的数据源是简书用户，使用的是Scrapy框架。同时也想对简书的用户做一个数据分析。要爬取大量数据，使用Scrapy要考虑的是新的url在哪里产生，解析的方法如何循环调用，也就是爬取的深度和广度。在Scrapy官方文档上的案例过于简单，实现的过程遇到...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。