Scrapy学习第六课

最新推荐文章于 2024-03-14 06:19:07 发布

helenandyoyo

最新推荐文章于 2024-03-14 06:19:07 发布

阅读量456

点赞数 1

分类专栏： Python 文章标签： scrapy start_request python

本文链接：https://blog.csdn.net/u014033518/article/details/85243981

版权

本文详细介绍了Scrapy框架中start_requests()函数的作用，包括其作为爬取起点的功能，以及如何根据start_urls生成Request。内容涵盖源码分析和代码演示，展示了start_requests()在爬虫执行过程中的调用顺序和结果验证。

摘要由CSDN通过智能技术生成

python爬虫框架scrapy学习第六课

知识点：start_requests（）

知识点：start_requests（）

函数解释：该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取的第一个Request。当spider启动爬取并且未制定URL时，该方法被调用。当指定了URL时，make_requests_from_url() 将被调用来创建Request对象。该方法仅仅会被Scrapy调用一次，因此您可以将其实现为生成器。该方法的默认实现是使用 start_urls 的url生成Request。
源码分析：针对start_urls中的每一个url 发起resquest请求。当start_urls中有多个链接时，逐步发起请求。

def start_requests(self):
    for url in self.start_urls:
        yield self.make_requests_from_url(url)
def make_requests_from_url(self, url):
    return Request(url, dont_filter=True)

代码演示：
– 不显示引用start_requests展示爬取顺序和爬取结果

import scrapy

class KrSpider(scrapy.Spider):
    name = 'kr'
    allowed_domains = ['ifeng.com']
    start_urls = [
        'http://news.i

最低0.47元/天解锁文章

helenandyoyo

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录