scrapy 抓取墙纸

「已注销」

已于 2022-09-14 14:26:42 修改

阅读量207

点赞数

分类专栏：爬虫文章标签： scrapy python

于 2022-09-14 13:30:28 首次发布

本文链接：https://blog.csdn.net/m0_53227339/article/details/126850798

版权

爬虫专栏收录该内容

2 篇文章 1 订阅

订阅专栏

scrapy 抓取墙纸

郑重声明

郑重声明：本项目的所有代码和相关文章，仅用于经验技术交流分享，禁止将相关技术应用到不正当途径，因为滥用技术产生的风险与本人无关。

首先抓包分析

在这里插入图片描述

url：aHR0cDovL3d3dy5uZXRiaWFuLmNvbS9pbmRleF8yLmh0bQ==

请求方式：get

查询参数：没有

请求头和cookie：没有加密参数

总结：没有反爬

使用scrapy shell 调试接口

启动scrapy shell调试命令：scrapy shell url

测试获取页面所有图片链接
在这里插入图片描述

测试获取页面所有图片名称
在这里插入图片描述

测试获取下一页链接

在这里插入图片描述

爬虫源码

启动爬虫 scrapy runspider 爬虫文件名.py

import os
import scrapy
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline


class ImageItem(scrapy.Item):
    '''item'''
    title = scrapy.Field()
    image_urls = scrapy.Field()


class ImgPipeline(ImagesPipeline):
    '''继承图片管道，方便自定义图片名称'''

    def get_media_requests(self, item, info):
        urls = ItemAdapter(item).get(self.images_urls_field, [])
        title = ItemAdapter(item).get('title')
        return [scrapy.Request(urls[u], meta={'item': title[u]}) for u in range(len(urls))]

    def file_path(self, request, response=None, info=None, *, item=None):
        # 自定义图片名称
        item = request.meta['item']
        return item['title'] + '.jpg'

    def item_completed(self, results, item, info):
        # 返回给下一个管道处理
        return item


class ImageSpider(scrapy.Spider):
    name = 'image'
    start_urls = ['aHR0cDovL3d3dy5uZXRiaWFuLmNvbS9pbmRleF8yLmh0bQ==']
    BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
    # 设置
    custom_settings = {
        'ITEM_PIPELINES': {
            # 开启图片管道
            ImgPipeline: 301
        },
        # 图片保存地址
        'IMAGES_STORE': os.path.join(BASE_DIR, 'images'),
        # 图片的下载地址 根据item中的字段来设置哪一个内容需要被下载
        'IMAGES_URLS_FIELD': 'image_urls',
        # 下载延时，不要动他，避免对网站服务器造成压力，做一个礼貌的爬虫
        'DOWNLOAD_DELAY': 3
    }

    def parse(self, response):
        item = ImageItem()
        # 提取图片链接
        item['image_urls'] = response.xpath('//div[@class="list"]//img/@src').getall()
        # 提取图片名称
        item['title'] = response.xpath('//div[@class="list"]//img/@alt').getall()
        # 有一些图片链接是相对路径的，需要使用urljoin将其拼接完整
        item['image_urls'] = list(map(lambda x: response.urljoin(x), item['image_urls']))
        # 交给图片管道下载保存图片
        yield item
        # 翻页，follow_all是比scrapy.Request更为强大的请求构建方式
        yield from response.follow_all(
            xpath='//a[text()="下一页>"]', callback=self.parse)