我们来完成一个使用ImagesPipeline下载图片的实战项目。360图片是一个知名的图片搜索网站,在浏览器打开http://image.so.com,其中,页面分类下有大量字画图片,我们可以编写爬虫爬取这些图片。
1、项目需求:
下载360图片网站中艺术分类下的所有图片到本地。
2、页面分析:
在下图所示的页面中向下滚动鼠标滚轮,便会有更多的图片加载出来,图片加载是由JavaScript脚本完成的,并且可以看到jQuery发送的请求,其响应的结果是一个json串。
复制图中jQuery发送请求的url(即Name列的第一个名字的link address),使用scrapy shell进行访问,查看相应结果的内容(json):
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
如上结果,响应结果(json)中的list字段是一个图片信息列表,count字段是列表中图片