scrapy 递归爬取如何传递参数，且解决循环yield时总是得到最后一个数据

最新推荐文章于 2023-04-01 20:16:27 发布

LYH_VIP

最新推荐文章于 2023-04-01 20:16:27 发布

阅读量1.7k

点赞数 5

分类专栏： python scrapy

本文链接：https://blog.csdn.net/DL_min/article/details/105593318

版权

python 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

scrapy

1 篇文章 0 订阅

订阅专栏

我们写爬虫的时候经常会遇到比如一页有20个产品，但是还需要进入单个产品里面爬取更详细的信息，这里就涉及到如何传递参数才能匹配好各个产品的信息，这里就引出scrapy中 request的meta参数，该参数只接受字典形式

meta={'k1':v1,'k2':v2}

用法如下

def parse(self, response):
    items = ScrapytestItem()
    items['name'] = 'csdn'
    href = href_domains + item.css('......').extract_first()

    yield Request(
        url=href,
        callback=self.parse_details,
        meta={'items': items},
    )

def parse_details(self, response):
    items2 = response.meta['items']

这样，items2里面就有了parse里面的items['name']参数

有时候需要循环遍历yield，但是发现传的参数总是最后一个值，原来meta是浅拷贝，此时我们需要深拷贝

import copy
meta={'items': copy.deepcopy(items)}

这样，就可以了

LYH_VIP

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
scrapy 递归爬取如何传递参数，且解决循环yield时总是得到最后一个数据

我们写爬虫的时候经常会遇到比如一页有20个产品，但是还需要进入单个产品里面爬取更详细的信息，这里就涉及到如何传递参数才能匹配好各个产品的信息，这里就引出scrapy中 request的meta参数，该参数只接受字典形式meta={'k1':v1,'k2':v2}用法如下def parse(self, response): items = ScrapytestItem() ...
复制链接

扫一扫

专栏目录