使用scrapy爬取CR糗百图片

最新推荐文章于 2020-02-08 14:17:48 发布

Evan10242

最新推荐文章于 2020-02-08 14:17:48 发布

阅读量798

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/Energy_adi/article/details/73716964

版权

scrapy 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

记录一下使用SCRAPY爬取糗百图片

1.创建项目：

使用命令行提示符输入：scrapy startproject tupian www.chengrenqiubai.com

2.打开项目目录，编辑items文件,内容：

import scrapy


class TupianItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    picture = scrapy.Field()

    pass

只有一个picture，是存储图片链接

3.编辑pipelines文件，内容：

import urllib.request

class TupianPipeline(object):
    def process_item(self, item, spider):
            thispic = item['picture']
            
            for i in thispic:
                b = i.split('.')[-2]
                filename1 ="D:/Jupyter/IMG/"+ b.split('/')[-1] +'.'+ i.split('.')[-1]
                urllib.request.urlretrieve(i,filename=filename1)
                
            return item

赋值item['picture']为变量名thispic

for 循环遍历thispic，遍历到的内容i格式为：http://wx1.sinaimg.cn/mw600/66b3de17gy1ffmzof3270j20qm0ypafc.jpg'

filename1 是给要保存的图片命名，b是取到cn/mw600/66b3de17gy1ffmzof3270j20qm0ypafc，在用b.split取66b3de17gy1ffmzof3270j20qm0ypafc部分为保存后的图片名

urllib.request.urlretrieve(内容，filename=文件名)

4.编辑spider文件

创建spider文件:scrapy genspider -t basic meitu www.chengrenqiubai.com

basic是模板名，meitu 是spider文件名，后面接链接

spider文件内容：

# -*- coding: utf-8 -*-
import scrapy
from ..items import TupianItem
class MeituSpider(scrapy.Spider):
    name = 'meitu'
    allowed_domains = ['www.qiubaichengren.com']
    start_urls = []

#一下定义url
    for i in range(1,20):
        url = 'http://www.qiubaichengren.com/'+ str(i) + '.html'
        start_urls.append(url)

    def parse(self, response):
        item = TupianItem()
        pic = response.xpath(".//*[@style='text-align: center;']//@src").extract()
        item['picture'] = pic
        yield item

定义动态url,使用xpath提取链接，赋值给item[‘picture’]

5.修改setting文件

ITEM_PIPELINES = {
    'tupian.pipelines.TupianPipeline': 300,
}

6.最后运行：scrapy crawl meitu

结果图片就爬取并保存下来了

（本文作为本人记录用，比较简略，有问题可以留言）

Evan10242

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录