Scrapy crawlspider LoaderItem 对图片不完整链接的拼接

在一次爬取图片链接过程中,发现图片路径不完整

度娘了好半天,对URL路径拼接的方案有两种:

1.urllib.parse.urljoin()

2.进行字符串的拼接

但是我的爬虫继承的事crawlspider,无法重写parse(重写就用不了它的方法了)

然后itemloader,无法在spider里进行上面这两种拼接方法,就尝试了在pipeline进行拼接,但是urljoin需要的url怎么获取?

于是使用了一个笨办法

  def process_item(self, load_item, spider):
        """进行数据保存操作"""
        url = spider.url
        if "image" in load_item:
            print(load_item["image"])
            for i in load_item["image"]:
                load_item["image"] = list(map(lambda x: url.urljoin(x), load_item["image"]))

通过类属性,将response传递给pipeline,然后在process_item根据spider进行接收,但是图片有很多,每一个都需要进行拼接

于是使用map()函数进行拼接

map()需要接收两个变量,一个函数,一个列表

OK,搞定

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值