利用scrapy爬取图片注意点以及源码

最新推荐文章于 2024-07-19 14:23:02 发布

加菲肥肥猫

最新推荐文章于 2024-07-19 14:23:02 发布

阅读量837

点赞数 2

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/Iridescent_1/article/details/122521151

版权

本文介绍了如何使用Scrapy 2.5.1版本爬取网站上的高清图片。首先通过`scrapy startproject`命令创建项目，然后在`spiders`目录下创建`img.py`文件编写爬虫代码。内容涉及`allowed_domains`、`start_urls`、`xpath`解析、`LOG_LEVEL`设置、`ROBOTSTXT_OBEY`、`USER_AGENT`伪装、`IMAGES_STORE`配置以及自定义`pipelines`进行图片保存。在`items.py`中定义字段，并在`pipelines.py`实现图片保存逻辑。通过运行`scrapy crawl img`命令，图片将被保存到指定目录。

摘要由CSDN通过智能技术生成

版本scrapy==2.5.1

目标url是图片、图片下载、高清图片、图片大全_站长素材，选择爬取第一页的高清图片。利用xpath去进行数据解析的工作。

利用terminal使用命令scrapy startproject imgsPro创建一个新的项目

之后需要将文件位置转移到imgsPro，利用命令cd imgsPro（返回上一层使用命令cd ..），然后使用命令scrapy genspider img www.xxx.com创建出一个py文件。

首先，项目大体结构有：

test1

├─imgsPro

├─imgs

├─imgsPro

  ├─spiders

  ├─__init__.py

  ├─img.py

├─__init__.py

  ├─items.py

  ├─pipelines.py

  ├─middlewares.py

  ├─settings.py

├─scrapy.cfg

img.py

import scrapy
from imgsPro.items import ImgsproItem


class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://sc.chinaz.com/tupian/']

    def parse(self, response):
        div_list = response.xpath('//*[@id="container"]/div')
        for div in div_list:
            src = 'https:' + div.xpath('./div/a/img/@src2').extract_first()
            p