Scrapy 踩坑记录

本文作者针对Scrapy框架使用过程中遇到的问题进行记录,包括start_urls的重要性以及如何处理从数据库获取大量URL进行爬取的情况。作者指出,start_urls是必须的,用于程序启动时获取初始URL,而当需要遍历大量URL时,应重写start_requests()函数,并自定义回调函数,以避免依赖start_urls。
摘要由CSDN通过智能技术生成

首先要吐槽的是,现在的技术网络环境真的是太单一了,感觉大家都是在复制粘贴,有了问题一搜,发现所有的答案都是一样的,连报错和项目名称都是一样的,真的是可笑啊,想我泱泱大国这么多技术人才,竟然都没有一点原创精神,稍微原创一点的都是各种培训机构,真的是无语。言归正传,本篇文章是为了记录自己的踩坑历史,方便自己记忆,也方便后面学习的人可以少走弯路。
坑一:关于start_urls

start_urls,scrapy 框架中,是会优先从start_urls中获取url 来进行爬取的,这里的start_urls 可以放置多个url,scrapy 会从这里依次取出url 来进行爬取,现在我们的这个位置是没有任何问题的。但是如果我们把start_urls 去掉,那么这个程序就不会执行,因为这个时候无法获取到url路径,但是allowed_domains 是可以去掉的。

总结:只有少数的url ,并且不需要从数据库中获取的,可以写在start_urls 中,start_urls 是必须的 ,parse名字也是固定的在这里插入图片描述

下面我们来讨论关于start_urls 的下一个问题,我们现在需要从数据库中获取大量的urls,依次进行爬取,这该怎么办呢。
在这个时候,我们需要获取大量的urls ,一般情况是从数据库中获取,为了方便看,我们在这里就使用数组来代替,这个时候我们需要重写源码中的start_requests() 这个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

美丽大方程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值