scrapy 不使用ImagePipelines保存图片，并保持原图片名

最新推荐文章于 2024-02-21 14:29:06 发布

阿水攻城尸

最新推荐文章于 2024-02-21 14:29:06 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q328730422/article/details/79297594

版权

爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

除了使用自带的ImagePipelines方法外，还可以自己在pipelines写一个request，把图片保存下来。

其它的都不在赘述，直接上pipelines。

Pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import os
import urllib2
class MmxyzPipeline(object):   #这个pipelines就是项目建立时候自动生成的，直接用就行
    def process_item(self, item, spider):
        os.chdir('/Users/cgs/image/mmxyz') #先切换到图片存放路径下
        if not os.path.exists(item['title'][0]): #判断套图文件夹是否存在
            os.mkdir(item['title'][0])  #不存在就直接建利套图目录
        os.chdir(item['title'][0]) #切换到套图目录下
        i = item['image']  #准备遍历套图下的所有图片
        for I in i:
            if I:
                request = urllib2.Request(I)
                response = urllib2.urlopen(request).read()
                with open(I[-7:],'wb') as f:  #保存图片
                    f.write(response)

虽然这个方法也可以实现按照原来的图片名保存图片，但是鉴于存在写图片到本地的时候无法多并发，因而相对于ImagePipelines绘慢很多。所以使用ImagePipelines，并对其进行一些小改造会是一个更好的方法。

阿水攻城尸

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阿水攻城尸 CSDN认证博客专家 CSDN认证企业博客

码龄9年

25: 原创

77万+: 周排名

199万+: 总排名

10万+: 访问

: 等级

760: 积分

6: 粉丝

5: 获赞

3: 评论

16: 收藏

私信

关注

热门文章

分类专栏

最新评论

openldap密码策略，定期短信及邮件提醒用户修改密码（ldap自身密码策略无法使用前提下的妥协）
xiaoyixue: 配置文档在哪儿？
scrapy使用mongodb作为存储（数据库）
平平无奇秃头小天才: 那如果想存多个表，分开试验每个表内容都能存进去，合在一起就存不进去是怎么回事呀大佬[code=python] class KaogongPipeline(object): @classmethod def __init__(self): # 获取setting主机名、端口号和数据库名称 settings = get_project_settings() host = settings['MONGODB_HOST'] port = settings['MONGODB_PORT'] dbname = settings['MONGODB_DBNAME1'] # 创建数据库连接 client = pymongo.MongoClient(host=host, port=port) # 指向指定数据库 mdb = client['kaogong'] # 获取数据库里面存放数据的表名 self.post = mdb[settings['MONGODB_DOCNAME1']] def process_item(self, item, spider): if isinstance(item, KaogongItem): # 对item的class进行鉴别 data = dict(item) # 向指定的表里添加数据 self.post.insert(data) return item class ZhiweiPipeline(object): @classmethod def __init__(self): # 获取setting主机名、端口号和数据库名称 settings = get_project_settings() host = settings['MONGODB_HOST'] port = settings['MONGODB_PORT'] dbna [/code]
scrapy 通过ImagePipelines下载图片并以非hash值作为图片名字来保存（保留图片原文件名）
weixin_43583424: 你好，确实可以了，不过没法循环创建文件夹，每遍历一个列表的图片之后，再新建一个文件夹怎么弄？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。