Scrapy 踩坑记录

最新推荐文章于 2021-06-03 16:48:39 发布

美丽大方程序猿

最新推荐文章于 2021-06-03 16:48:39 发布

阅读量229

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/RENYZHI/article/details/105403064

版权

本文作者针对Scrapy框架使用过程中遇到的问题进行记录，包括start_urls的重要性以及如何处理从数据库获取大量URL进行爬取的情况。作者指出，start_urls是必须的，用于程序启动时获取初始URL，而当需要遍历大量URL时，应重写start_requests()函数，并自定义回调函数，以避免依赖start_urls。

摘要由CSDN通过智能技术生成

首先要吐槽的是，现在的技术网络环境真的是太单一了，感觉大家都是在复制粘贴，有了问题一搜，发现所有的答案都是一样的，连报错和项目名称都是一样的，真的是可笑啊，想我泱泱大国这么多技术人才，竟然都没有一点原创精神，稍微原创一点的都是各种培训机构，真的是无语。言归正传，本篇文章是为了记录自己的踩坑历史，方便自己记忆，也方便后面学习的人可以少走弯路。
坑一：关于start_urls

start_urls,scrapy 框架中，是会优先从start_urls中获取url 来进行爬取的，这里的start_urls 可以放置多个url,scrapy 会从这里依次取出url 来进行爬取，现在我们的这个位置是没有任何问题的。但是如果我们把start_urls 去掉，那么这个程序就不会执行，因为这个时候无法获取到url路径，但是allowed_domains 是可以去掉的。

总结：只有少数的url ，并且不需要从数据库中获取的，可以写在start_urls 中，start_urls 是必须的，parse名字也是固定的在这里插入图片描述

下面我们来讨论关于start_urls 的下一个问题，我们现在需要从数据库中获取大量的urls，依次进行爬取，这该怎么办呢。
在这个时候，我们需要获取大量的urls ,一般情况是从数据库中获取，为了方便看，我们在这里就使用数组来代替，这个时候我们需要重写源码中的start_requests() 这个