利用scrapy下载图片

Pythonwke

于 2024-07-17 15:24:35 发布

阅读量109

点赞数 2

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46780416/article/details/140496282

版权

创建项目：
  运行scrapy startproject your_project_name
  scrapy  genspider image_spider

定义Spider：在spiders文件夹下，
创建一个新文件如images_spider.py，
编写爬虫逻辑，例如选择想要下载图片的URL列表。

实现代码如下：

spider.py

import scrapy

class ImagesSpider(scrapy.Spider):
    name = 'image_spider'
    allowed_domains = ['example.com']  # 替换为你想爬取的网站
    start_urls = ['http://example.com/images/page1', 'http://example.com/images/page2']  # 同样替换为实际页面URLs

    def parse(self, response):
        for img_url in response.css('img::attr(src)').getall():  # 使用CSS选择器找到图片链接
            yield {'image_url': img_url}

        next_page = response.css('a.next::attr(href)').get()  # 如果有分页，获取下一页链接
        if next_page is not None:
            yield response.follow(next_page, self.parse)

设置pipelines.py文件

ITEM_PIPELINES = {
    'your_project.pipelines.ImagesPipeline': 300,
}

# images_pipelines.py
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline

class ImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        for image_url in item['image_url']:
            yield scrapy.Request(image_url)

    def file_path(self, request, response=None, info=None):
        image_guid = str(request.meta['image_guid']) or request.url.split('/')[-1]
        return f"images/{image_guid}.jpg"

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Image download failed")
        item['image_paths'] = image_paths
        return item

运行：

scrapy crawl image_spider

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Pythonwke CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

142万+: 周排名

11万+: 总排名

3060: 访问

: 等级

191: 积分

15: 粉丝

36: 获赞

5: 评论

12: 收藏

私信

关注

热门文章

分类专栏

python网络编程 1篇

最新评论

数据库port scan
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
python爆破SSH端口弱口令
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
用python selenium模拟短信发送
CSDN-Ada助手: 恭喜您在博客领域的持续创作！这篇关于用python selenium模拟短信发送的主题很有趣，展示了您对技术的深刻理解和热情。希望您能继续保持创作的激情，不断挑战自我，拓展更多有趣的主题。或许在下一篇博客中，可以分享一些关于如何利用python selenium进行网页自动化测试的经验，让更多人受益。期待您的下一篇精彩文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
python爆破SSH端口弱口令
CSDN-Ada助手: 恭喜你写了第5篇博客！看来你对python爆破SSH端口弱口令有深入的了解啊。希望你能继续保持创作的热情，分享更多有趣的内容。下一步，也许可以探讨一下如何防范SSH端口弱口令攻击，或者分享其他网络安全相关的知识，让读者受益更多。加油！
python扫描文件IP端口探测
CSDN-Ada助手: 恭喜您写了这么有趣的一篇博客！对于Python扫描文件IP端口探测这个主题，您的解析非常深入，让人受益匪浅。希望您能继续保持写作的热情，可以考虑分享一些实际案例或者更多的技术细节，让读者更好地理解和运用这方面的知识。期待您的下一篇作品！祝您写作顺利，越来越有成就感！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。