我们来完成一个使用ImagesPipeline下载图片的实战项目。360图片是一个知名的图片搜索网站,在浏览器打开http://image.so.com,其中,页面分类下有大量字画图片,我们可以编写爬虫爬取这些图片。
1、项目需求:
下载360图片网站中艺术分类下的所有图片到本地。
2、页面分析:
在下图所示的页面中向下滚动鼠标滚轮,便会有更多的图片加载出来,图片加载是由JavaScript脚本完成的,并且可以看到jQuery发送的请求,其响应的结果是一个json串。

复制图中jQuery发送请求的url(即Name列的第一个名字的link address),使用scrapy shell进行访问,查看相应结果的内容(json):

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如上结果,响应结果(json)中的list字段是一个图片信息列表,count字段是列表中图片

本文介绍如何使用Scrapy的ImagesPipeline下载360图片网站艺术分类下的所有图片。通过分析页面,发现图片由JavaScript动态加载,通过jQuery请求获取JSON数据,其中包含图片URL。通过观察请求URL的规律,可以构建API来逐次获取图片信息,直至没有更多图片。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=80621786&d=1&t=3&u=2a846ea879794a5493630d19a2911aa6)
492

被折叠的 条评论
为什么被折叠?



