scrapy垂直爬取及多个item下载问题(爬取某个写真网)

  利用scrapy爬虫时我们经常会遇到列表页可以爬取一些信息,详情页又可以爬到一些信息。同时详情页的url需要在列表页请求之后才可以获得。因此就需要垂直爬取,也就是先请求获得详情页的html,解析出详情页后再去请求以获得详情页的内容。同时,如果此时需要保存一些数据,如:列表页保存几个数据,详情页也需要保存几个数据,此时就需要设置多个item来获得。因此,本文记录了遇到垂直爬取与多个item保存并且下载某个item中内容的方法。

1 垂直爬取

     垂直爬取其实比较简单,主要是就是利用yield  Request()以及创建parse函数,Request去请求url将返回内容回调给parse_()函数,parse_()函数解析产生新的url及其他内容,若想进一步请求新的url,则继续去yield Request ,从而垂直爬取下去。

import scrapy
from scrapy import Request
from xiezhen.items import XiezhenItem
import time
import random
import re
from scrapy.http import request
import math
from xiezhen.items import ModelItem

class XzSpider(scrapy.Spider):
    name = 'xz'
    allowed_domains = ['tujigu.com']

    def start_requests(self):
        for i in range(1, 2):
            if i == 1:
                url = 'https://www.tujigu.com/riben/&#
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值