python学习(三)scrapy爬虫框架(三)——爬取壁纸保存并命名

写在开始之前

按照上一篇介绍过的scrapy爬虫的创建顺序,我们开始爬取壁纸的爬虫的创建。
首先,再过一遍scrapy爬虫的创建顺序:

  • 第一步:确定要在pipelines里进行处理的数据,写好items文件
  • 第二步:创建爬虫文件,将所需要的信息从网站上爬取下来,并传递给pipelines文件处理
  • 第三步:pipelines接收spiders传递过来的数据,并做出相应的处理,如:壁纸的下载和保存
  • 第四步:一定要记得在settings开启pipelines

在开始之前,我们先按照上面的步骤来分析一下代码怎么写:

  1. 第一步:确定我们要爬取的网站,在百度上随便找了一个,zolhttp://desk.zol.com.cn/dongman/1920x1080/,这是zol的动漫板块,自己练手的话可以另外找一个。
  2. 第二步:确定items,我们要下载壁纸并且按照网站上的名字进行命名,下载壁纸需要获取壁纸的链接image_url,命名需要壁纸的名字image_name
  3. 第三步:编写spiders的代码从网页中获取我们image_url和image_name
  4. 第四步:下载图片并命名保存
  5. 第五步:到settings里开启pipelines

下面正式开始敲代码<( ̄︶ ̄)↗[GO!]

第一步:创建scrapy爬虫项目

打开命令行,依次输入如下命令:

#创建scrapy爬虫项目
scrapy startproject bizhi_zol
#打开新创建的爬虫项目
cd bizhi_zol
#在项目里创建spiders,domain为desk.zol.com.cn
scrapy genspider zol "desk.zol.com.cn"

第二步:items.py

项目创建完成后,我们按照上面的顺序,先写items

# -*- coding: utf-8 -*-
#items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BizhiZolItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_url = scrapy.Field()
    image_name = scrapy.Field()

第三步:spiders

这一步可以说是整个爬虫里最重要的一步了
首先分析网页结构,打开网址:http://desk.zol.com.cn/dongman/1920x1080/
查看元素后发现壁纸链接全在ul标签下,如图&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值