使用scrapy爬取图片

最新推荐文章于 2024-08-05 10:37:56 发布

江玉郎

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量1.7w

点赞数 34

文章标签： scrapy 图片保存

本文链接：https://blog.csdn.net/qq_39610888/article/details/81585156

版权

本文介绍如何使用Scrapy爬虫从美食杰和站长素材网爬取图片，包括半自定义方法和系统方法。通过设置start_urls、xpath提取图片链接，配置items、settings.py以及pipelines.py来下载并按原名保存图片。同时，文章提到了如何爬取多页内容以及保存文件的两种方式。

摘要由CSDN通过智能技术生成

一半自定义方法

这里我们以美食杰为例，爬取它的图片，作为演示，这里只爬取一页。美食杰网址
这里写图片描述
1 首先我们在命令行进入到我们要创建的目录，输入 scrapy startproject meishi, 接着根据提示cd meishi，再cd meishi,
, 下来写 scrapy genspider mei meishij.net ,生成如图所示文件。
（关于以上命令的讲解不在这次写的范围内）
这里写图片描述
2 点进如图所示的mei.py 文件，这里需要注意，要将start_urls[] 改为我们要爬取的Url 地址，然后根据xpath爬取图片
（这里放图片而不放源码得原因是，代码得自己写，不要复制）

3 进入到items 文件，她来处理刚刚得到的文件
这里写图片描述
4 进入到mei.py 文件，引入items这个文件的函数，并进行输出，因为src是图片，所以要用[]括起来

5 在settings.py 里进行设置，大致在67行前后的位置，自己定义下载。
最后两句代码，IMAGES_STORE = ’ ’ 里面写图片保存的路径
IMAGES_URLS_FIELD=’ ’ 里面写接收图片的变量
这里写图片描述
6 在命令行输入 scrapy crawl mei 点击确认，看到如图所示，表示成功