Scrapy——抓取图片

最新推荐文章于 2024-04-24 21:06:33 发布

cod16xx

最新推荐文章于 2024-04-24 21:06:33 发布

阅读量557

点赞数

分类专栏： python scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/qq_35037977/article/details/77907006

版权

python 同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

scrapy

4 篇文章 0 订阅

订阅专栏

#items.py

import scrapy
class JiandanItem(scrapy.Item):
    # define the fields for your item here like:
    image_urls = scrapy.Field()
    image=scrapy.Field()

#spider.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from ..items import JiandanItem
class JiandanSpider(scrapy.Spider):
    name='jiandan'
    allowed_domains=[]
    start_urls=['http://jandan.net/ooxx']

    def parse(self,response):
        item=JiandanItem()
        item['image_urls']=response.css('img::attr(src)').extract()
        yield item
        new_url=response.css('a.previous-comment-page::attr(href)').extract_first()
        if new_url:
            yield Request(new_url,callback=self.parse)

#pipelines.py

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class JiandanPipeline(ImagesPipeline):
    #发起request，下载图片
    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            yield scrapy.Request('http:'+image_url)
    #全部下载完成后调用的方法
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")      
        return item

#settings.py

# 使用图片管道
ITEM_PIPELINES = {
                  'jiandan.pipelines.JiandanPipeline': 1,
                 }

IMAGES_STORE = 'f:/jiandan' # 图片存储路径

# 30 days of delay for images expiration
IMAGES_EXPIRES = 30
# 图片缩略图
IMAGES_THUMBS = {
    'small': (50, 50),
    'big': (270, 270),
}
# 图片过滤器，最小高度和宽度
IMAGES_MIN_HEIGHT = 110
IMAGES_MIN_WIDTH = 110
#下载延迟
DOWNLOAD_DELAY = 0.25