Scrapy学习第六课

本文详细介绍了Scrapy框架中start_requests()函数的作用,包括其作为爬取起点的功能,以及如何根据start_urls生成Request。内容涵盖源码分析和代码演示,展示了start_requests()在爬虫执行过程中的调用顺序和结果验证。
摘要由CSDN通过智能技术生成

python爬虫框架scrapy学习第六课

知识点:start_requests()

  • 函数解释:该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取的第一个Request。当spider启动爬取并且未制定URL时,该方法被调用。 当指定了URL时,make_requests_from_url() 将被调用来创建Request对象。 该方法仅仅会被Scrapy调用一次,因此您可以将其实现为生成器。该方法的默认实现是使用 start_urls 的url生成Request。

  • 源码分析:针对start_urls中的每一个url 发起resquest请求。当start_urls中有多个链接时,逐步发起请求。

def start_requests(self):
    for url in self.start_urls:
        yield self.make_requests_from_url(url)
def make_requests_from_url(self, url):
    return Request(url, dont_filter=True)
  • 代码演示
    – 不显示引用start_requests展示爬取顺序和爬取结果
import scrapy

class KrSpider(scrapy.Spider):
    name = 'kr'
    allowed_domains = ['ifeng.com']
    start_urls = [
        'http://news.i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值