Scrapy抓取360网站图片

最新推荐文章于 2020-12-25 08:01:23 发布

WWW54111392

最新推荐文章于 2020-12-25 08:01:23 发布

阅读量165

点赞数

文章标签： python json

原文链接：http://www.cnblogs.com/Alfred-ou/p/9329392.html

版权

项目名称：抓取360网站图片

目标url：http://image.so.com

项目描述：利用Scrapy的ImagePipeline抓取360网站的图片

要利用Scrapy抓取图片，第一步还是先定义item

1 # -*-coding: utf-8 -*-
2 import scrapy
3 
4 class ImageItem(scrapy.Item):
5     image_urls = scrapy.Field()

第二步是在settings.py中打开ImagePipeline，然后定义一下文件的存储路径。

1 ITEM_PIPELINES = {
2     'scrapy.pipelines.images.ImagesPipeline': 1,
3 }
4 
5 IMAGES_STORE = 'alfred_images'

第三步就是写spider了

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 import json
   from ..items import ImageItem
 4 
 5 class ImagesSpider(scrapy.Spider):
 6     name = 'images'
 7     start_urls = 'http://image.so.com/zj?ch=home&sn=90&listtype=new&temp=1'
 8 
 9     def parse(self, response):
10         pics = json.loads(response.body) #因为返回的是json数据，所有这里多了一个解析的步骤
11         for i in pics['list']:
12             item = ImageItem()
13             item['image_urls'] = [i["qhimg_url"]] #这里注意，图片的url必须放在一个列表中，否则会出现异常
14             yield item

几个要注意的地方：

　　1.最好在item.py中定义好image_urls = Field()

　　2.记得在settings中开启ImagePipeline，并且定义好图片储存路径

　　3.图片的url必须放在列表中，必须放在列表中，必须放在列表中。

转载于:https://www.cnblogs.com/Alfred-ou/p/9329392.html

WWW54111392

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy抓取360网站图片

项目名称：抓取360网站图片目标url：http://image.so.com项目描述：利用Scrapy的ImagePipeline抓取360网站的图片要利用Scrapy抓取图片，第一步还是先定义item1 # -*-coding: utf-8 -*-2 import scrapy3 4 class ImageItem(scrapy.Item):5 ...
复制链接

扫一扫