写在开始之前
按照上一篇介绍过的scrapy爬虫的创建顺序,我们开始爬取壁纸的爬虫的创建。
首先,再过一遍scrapy爬虫的创建顺序:
- 第一步:确定要在pipelines里进行处理的数据,写好items文件
- 第二步:创建爬虫文件,将所需要的信息从网站上爬取下来,并传递给pipelines文件处理
- 第三步:pipelines接收spiders传递过来的数据,并做出相应的处理,如:壁纸的下载和保存
- 第四步:一定要记得在settings开启pipelines
在开始之前,我们先按照上面的步骤来分析一下代码怎么写:
- 第一步:确定我们要爬取的网站,在百度上随便找了一个,zol:http://desk.zol.com.cn/dongman/1920x1080/,这是zol的动漫板块,自己练手的话可以另外找一个。
- 第二步:确定items,我们要下载壁纸并且按照网站上的名字进行命名,下载壁纸需要获取壁纸的链接image_url,命名需要壁纸的名字image_name
- 第三步:编写spiders的代码从网页中获取我们image_url和image_name
- 第四步:下载图片并命名保存
- 第五步:到settings里开启pipelines
下面正式开始敲代码<( ̄︶ ̄)↗[GO!]
第一步:创建scrapy爬虫项目
打开命令行,依次输入如下命令:
#创建scrapy爬虫项目
scrapy startproject bizhi_zol
#打开新创建的爬虫项目
cd bizhi_zol
#在项目里创建spiders,domain为desk.zol.com.cn
scrapy genspider zol "desk.zol.com.cn"
第二步:items.py
项目创建完成后,我们按照上面的顺序,先写items
# -*- coding: utf-8 -*-
#items.py
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class BizhiZolItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
image_url = scrapy.Field()
image_name = scrapy.Field()
第三步:spiders
这一步可以说是整个爬虫里最重要的一步了
首先分析网页结构,打开网址:http://desk.zol.com.cn/dongman/1920x1080/
查看元素后发现壁纸链接全在ul标签下,如图&

最低0.47元/天 解锁文章
scrapy爬虫框架(三)——爬取壁纸保存并命名&spm=1001.2101.3001.5002&articleId=79943868&d=1&t=3&u=7a43357fa7ce405bb820ed66d9bd8913)
1401

被折叠的 条评论
为什么被折叠?



