使用scrapy爬取图片

本文介绍如何使用Scrapy爬虫从美食杰和站长素材网爬取图片,包括半自定义方法和系统方法。通过设置start_urls、xpath提取图片链接,配置items、settings.py以及pipelines.py来下载并按原名保存图片。同时,文章提到了如何爬取多页内容以及保存文件的两种方式。
摘要由CSDN通过智能技术生成

一 半自定义方法

这里我们以美食杰为例,爬取它的图片,作为演示,这里只爬取一页。美食杰网址
这里写图片描述
1 首先我们在命令行进入到我们要创建的目录,输入 scrapy startproject meishi, 接着根据提示cd meishi, 再cd meishi,
, 下来写 scrapy genspider mei meishij.net ,生成如图所示文件。
(关于以上命令的讲解不在这次写的范围内)
这里写图片描述
2 点进如图所示的mei.py 文件,这里需要注意,要将start_urls[] 改为我们要爬取的Url 地址,然后根据xpath爬取图片
(这里放图片而不放源码得原因是,代码得自己写,不要复制)
这里写图片描述
3 进入到items 文件,她来处理刚刚得到的文件
这里写图片描述
4 进入到mei.py 文件,引入items这个文件的函数,并进行输出,因为src是图片,所以要用[]括起来
这里写图片描述
5 在settings.py 里进行设置,大致在67行前后的位置,自己定义下载。
最后两句代码,IMAGES_STORE = ’ ’ 里面写图片保存的路径
IMAGES_URLS_FIELD=’ ’ 里面写接收图片的变量
这里写图片描述
6 在命令行输入 scrapy crawl mei 点击确认,看到如图所示,表示成功
这里写图片描述

2 使用系统的方法

上面的方法虽然能爬取下来图片,但是图片的名字是scrapy 根据某些规则(哈希) 为我们命名的,但是我们想用图片原本的名字进行命名时,这种方法就明显不行了, 这时需要另外一种办法了。
下面,将以站长素材网为例,爬取图标,

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值