Scrapy学习总结(四)——链接详细介绍

最新推荐文章于 2024-06-03 09:58:37 发布

二十五六岁

最新推荐文章于 2024-06-03 09:58:37 发布

阅读量232

点赞数

分类专栏： scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/qq_40803626/article/details/88387576

版权

scrapy 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.spider简单写法

scrapy genspider example example.com语法

# -*- coding: utf-8 -*-
import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        pass

2.spider复杂写法

–具体看scrapy中文网–

# -*- coding: utf-8 -*-
import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']

    # start_urls = ['http://example.com/']

    # 另外一种初始链接写法
    def start_requests(self):
        urls = ['http://example.com/']
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    # 如果是简写初始url，此方法名必须为：parse
    def parse(self, response):
        pass

3. Spider.start_requests()方法：

由上面得知，scrapy.spiders.Spider会通过调用start_requests()方法，以start_urls中的所有链接的每个链接生成对应的Request对象，该对象设置了默认的回调函数parse()方法。start_requests()方法的默认实现如下：

def start_requests(self):
    for url in self.start_urls:
        yield self.make_requests_from_url(url)

def make_requests_from_url(self, url):
    return Request(url, dont_filter=True)

我们如果要自定义先爬取的页面时，或者要自己定义先生成的Request时，或者某些需要网站需要登录才能访问时，我们就会自己来实现start_request()方法，我们在实现该方法的时候，一般会参考它的默认实现，然后把start_requests()方法实现为一个包含yield的生成器。我们把想要先爬取的链接全部存放在start_urls列表中，然后对于这个列表中的每一个url来说，start_requests()方法只会调用一次，然后就会生成Request，获取Response，将Response传递给Request中的回调函数处理。但这不是说在整个爬虫项目的爬取过程中start_request()方法只会调用一次，而是说，对于start_urls中的每一个链接，start_requests()方法只会调用一次）。
作者：绕行
来源：CSDN
原文：https://blog.csdn.net/c315838651/article/details/72590569

start_requests()方法默认会取start_urls中所有的链接来生成Request对象。既然我们可以自定义实现start_requests()方法，我们在start_requests()中也可以不使用start_urls，使用我们自定义的url生成Request就行，同时，我们还能给Request随意指定我们想要的回调函数。

二十五六岁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy学习总结(四)——链接详细介绍

1.spider简单写法scrapy genspider example example.com语法# -*- coding: utf-8 -*-import scrapyclass ExampleSpider(scrapy.Spider): name = 'example' allowed_domains = ['example.com'] start_u...
复制链接

扫一扫

专栏目录