利用scrapy爬取图片注意点以及源码

本文介绍了如何使用Scrapy 2.5.1版本爬取网站上的高清图片。首先通过`scrapy startproject`命令创建项目,然后在`spiders`目录下创建`img.py`文件编写爬虫代码。内容涉及`allowed_domains`、`start_urls`、`xpath`解析、`LOG_LEVEL`设置、`ROBOTSTXT_OBEY`、`USER_AGENT`伪装、`IMAGES_STORE`配置以及自定义`pipelines`进行图片保存。在`items.py`中定义字段,并在`pipelines.py`实现图片保存逻辑。通过运行`scrapy crawl img`命令,图片将被保存到指定目录。
摘要由CSDN通过智能技术生成

版本scrapy==2.5.1

目标url是图片、图片下载、高清图片、图片大全_站长素材,选择爬取第一页的高清图片。利用xpath去进行数据解析的工作。

利用terminal使用命令scrapy startproject imgsPro创建一个新的项目

之后需要将文件位置转移到imgsPro,利用命令cd imgsPro(返回上一层使用命令cd ..),然后使用命令scrapy genspider img www.xxx.com创建出一个py文件。

首先,项目大体结构有:

  1. test1
  2. ├─imgsPro
  3.          ├─imgs
  4.          ├─imgsPro
  5.                     ├─spiders
  6.                             ├─__init__.py
  7.                             ├─img.py
  8.                     ├─__init__.py
  9.                     ├─items.py
  10.                     ├─pipelines.py
  11.                     ├─middlewares.py
  12.                     ├─settings.py
  13.          ├─scrapy.cfg

img.py

import scrapy
from imgsPro.items import ImgsproItem


class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://sc.chinaz.com/tupian/']

    def parse(self, response):
        div_list = response.xpath('//*[@id="container"]/div')
        for div in div_list:
            src = 'https:' + div.xpath('./div/a/img/@src2').extract_first()
            p
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

加菲肥肥猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值