请求传参.

小菜0-o

已于 2023-09-30 20:41:24 修改

阅读量115

点赞数

分类专栏：爬虫学习文章标签： mysql 数据库

于 2023-09-30 16:39:56 首次发布

本文链接：https://blog.csdn.net/qq_45895217/article/details/133436319

版权

爬虫学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

请求传参使用场景

使用场景：如果爬取解析的数据不在同一张页面中。

在Boss网站中，岗位的名称和关于岗位的描述是不在一个页面的。所以我们需要的信息在不同的页面中，所以要用到请求传参。
请求传参的方法页不难。
在boss.py文件的parse函数中，最后一行为：
在Request中callback回调为另外一个处理岗位详情页的函数。
添加参数meta字典，封装已经写好部分数据的item到另外一个函数parse_detail中。

#手动请求的发送
#请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})

然后再在这个函数parse_detail中处理我们需要的另一个数据。

   #回调函数接受item
    def parse_detail(self,response):
        item = response.meta['item']

        job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
        job_desc = ''.join(job_desc)
        # print(job_desc)
        item['job_desc'] = job_desc

        yield item

教训：忘记在settings.py中开启管道

因为这里用管道将数据保存到本地，但是一开始忘记在settings.py中将管道代码取消注释！！

boss.py爬虫文件完整代码

此代码已失效，主要学习请求传参。

# -*- coding: utf-8 -*-
import scrapy
from bossPro.items import BossproItem

class BossSpider(scrapy.Spider):
    name = 'boss'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=']

    url = 'https://www.zhipin.com/c101010100/?query=python&page=%d'
    page_num = 2

   #回调函数接受item
    def parse_detail(self,response):
        item = response.meta['item']

        job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
        job_desc = ''.join(job_desc)
        # print(job_desc)
        item['job_desc'] = job_desc

        yield item

    #解析首页中的岗位名称
    def parse(self, response):
        li_list = response.xpath('//*[@id="main"]/div/div[3]/ul/li')
        for li in li_list:
            item = BossproItem()

            job_name = li.xpath('.//div[@class="info-primary"]/h3/a/div[1]/text()').extract_first()
            item['job_name'] = job_name
            # print(job_name)
            detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="info-primary"]/h3/a/@href').extract_first()
            #对详情页发请求获取详情页的页面源码数据
            #手动请求的发送
            #请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
            yield scrapy.Request(detail_url,callback=self.parse_detail,meta={'item':item})

        #分页操作
        if self.page_num <= 3:
            new_url = format(self.url%self.page_num)
            self.page_num += 1

            yield scrapy.Request(new_url,callback=self.parse)

小菜0-o

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
请求传参.

使用场景：如果爬取解析的数据不在同一张页面中。在Boss网站中，岗位的名称和关于岗位的描述是不在一个页面的。所以我们需要的信息在不同的页面中，所以要用到请求传参。请求传参的方法页不难。在boss.py文件的parse函数中，最后一行为：在Request中callback回调为另外一个处理岗位详情页的函数。添加参数meta字典，封装已经写好部分数据的item到另外一个函数parse_detail中。然后再在这个函数parse_detail中处理我们需要的另一个数据。
复制链接

扫一扫

专栏目录