scrapy垂直爬取及多个item下载问题(爬取某个写真网)

最新推荐文章于 2024-05-10 12:27:58 发布

hello,code

最新推荐文章于 2024-05-10 12:27:58 发布

阅读量954

点赞数 1

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/linershigebaobao/article/details/106975915

版权

利用scrapy爬虫时我们经常会遇到列表页可以爬取一些信息，详情页又可以爬到一些信息。同时详情页的url需要在列表页请求之后才可以获得。因此就需要垂直爬取，也就是先请求获得详情页的html，解析出详情页后再去请求以获得详情页的内容。同时，如果此时需要保存一些数据，如：列表页保存几个数据，详情页也需要保存几个数据，此时就需要设置多个item来获得。因此，本文记录了遇到垂直爬取与多个item保存并且下载某个item中内容的方法。

1 垂直爬取

垂直爬取其实比较简单，主要是就是利用yield Request（）以及创建parse函数，Request去请求url将返回内容回调给parse_()函数，parse_（）函数解析产生新的url及其他内容，若想进一步请求新的url，则继续去yield Request ，从而垂直爬取下去。

import scrapy
from scrapy import Request
from xiezhen.items import XiezhenItem
import time
import random
import re
from scrapy.http import request
import math
from xiezhen.items import ModelItem

class XzSpider(scrapy.Spider):
    name = 'xz'
    allowed_domains = ['tujigu.com']

    def start_requests(self):
        for i in range(1, 2):
            if i == 1:
                url = 'https://www.tujigu.com/riben/&#

最低0.47元/天解锁文章

hello,code

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy垂直爬取及多个item下载问题(爬取某个写真网)

利用scrapy爬虫时我们经常会遇到列表页可以爬取一些信息，详情页又可以爬到一些信息。同时详情页的url需要在列表页请求之后才可以获得。因此就需要垂直爬取，也就是先请求获得详情页的html，解析出详情页后再去请求以获得详情页的内容。同时，如果此时需要保存一些数据，如：列表页保存几个数据，详情页也需要保存几个数据，此时就需要设置多个item来获得。因此，本文记录了遇到垂直爬取与多个item保存并且下载某个item中内容的方法。1 垂直爬取垂直爬取其实比较简单，主要是就是利用yield ...
复制链接

扫一扫