目录
一、创建一个Scrapy项目
通过如下命令即可创建 Scrapy 项目:
scrapy startproject ZhipinSpider
在上面命令中,scrapy 是Scrapy 框架提供的命令;startproject 是 scrapy 的子命令,专门用于创建项目;ZhipinSpider 就是要创建的项目名。
scrapy 除提供 startproject 子命令之外,它还提供了 fetch(从指定 URL 获取响应)、genspider(生成蜘蛛)、shell(启动交互式控制台)、version(查看 Scrapy 版本)等常用的子命令。可以直接输入 scrapy 来查看该命令所支持的全部子命令。
运行上面命令,将会看到如下输出结果:
New Scrapy project 'ZhipinSpider', using template directory 'd:\python3.6\lib\site-packages\scrapy\templates\project', created in:
C:\Users\mengma\ZhipinSpider
You can start your first spider with:
cd ZhipinSpider
scrapy genspider example example.com
上面信息显示 Scrapy 在当前目录下创建了一个 ZhipinSpider 项目,此时在当前目录下就可以看到一个 ZhipinSpider 目录,该目录就代表 ZhipinSpider 项目。
查看 ZhipinSpider 项目,可以看到如下文件结构:
ZhipinSpider
│ scrapy.cfg
│
└──ZhipinSpider
│ item.py
│ middlewares.py
│ pipelines.py
│ setting.py
│
├─ spiders
│ │ __init__.py
│ │
│ └─ __pycache__
└─ __pycache__
下面大致介绍这些目录和文件的作用:
- scrapy.cfg:项目的总配置文件,通常无须修改。
- ZhipinSpider:项目的 Python 模块,程序将从此处导入 Python 代码。
- ZhipinSpider/items.py:用于定义项目用到的 Item 类。Item 类就是一个 DTO(数据传输对象),通常就是定义 N 个属性,该类需要由开发者来定义。
- ZhipinSpider/pipelines.py:项目的管道文件,它负责处理爬取到的信息。该文件需要由开发者编写。
- ZhipinSpider/settings.py:项目的配置文件,在该文件中进行项目相关配置。
- ZhipinSpider/spiders:在该目录下存放项目所需的蜘蛛,蜘蛛负责抓取项目感兴趣的信息。
为了更好地理解 Scrapy 项目中各组件的作用,下面给出 Scrapy 概览图,如图 1 所示。
图 1 Scrapy 概览图
在图 1 中可以看到,Scrapy 包含如下核心组件:
- 调度器:该组件由 Scrapy 框架实现,它负责调用下载中间件从网络上下载资源。
- 下载器:该组件由 Scrapy 框架实现,它负责从网络上下载数据,下载得到的数据会由 Scrapy 引擎自动交给蜘蛛。
- 蜘蛛:该组件由开发者实现,蜘蛛负责从下载数据中提取有效信息。蜘蛛提取到的信息会由 Scrapy 引擎以 Item 对象的形式转交给 Pipeline。
- Pipeline:该组件由开发者实现,该组件接收到 Item 对象(包含蜘蛛提取的信息)后,可以将这些信息写入文件或数据库中。
经过上面分析可知,使用 Scrapy 开发网络爬虫主要就是开发两个组件,蜘蛛和 Pipeline。
二、在Scrapy项目中创建一个爬虫
F:\spider爬虫\scrapy\FirstDemo>scrapy genspider nuike nowcoder.com
scrapy genspider 接受两个参数 第一个参数 nuike:爬虫名称,第二个参数要爬取的域名。
回车之后此时项目目录中的spiders下会有nuike.py文件内容如下:
# -*- coding: utf-8 -*-
import scrapy
class NiukeSpider(scrapy.Spider):
name = 'niuke' #爬虫名称
allowed_domains = ['nowcoder.com'] #允许爬取的域名,多个域名可以通过逗号隔开
start_urls = ['http://nowcoder.com/'] # 爬虫首次启动时爬取的地址
def parse(self, response):
print(response,response.url) #打印出爬取的内容和地址
pass
好了,接下来就是爬虫的编写过程了。
三、运行爬虫
scrapy list 获取当前的爬虫列表
scrapy crawl niuke(爬虫的名称)
运行蜘蛛除了使用:scrapy crawl XX之外,我们还能用:runspider,前者是基于项目运行,后者是基于文件运行,也就是说你按照scrapy的蜘蛛格式编写了一个py文件,那你不想创建项目,那你就可以使用runspider,比如你编写了一个:scrapyd_cn.py的蜘蛛,你要直接运行就是:
scrapy runspider scrapy_cn.py
scrapy调试命令
scrapy shell http://www.scrapyd.cn(调试网址为http://www.scrapyd.cn的网站),
此时可以正常的获取数据,
但第二次再次爬取或多次爬取之后可能会报错,因为此时的爬虫会使用默认的User-Agent,部分网站服务器识别之后出于保护的目的会阻止再次访问,此时可以修改爬虫的默认User-Agent:
即将浏览器的User-Agent;复制到setting.py里面的USERAGENT。然后多次请求验证是否能够正常访问。
默认情况下爬虫会遵循robots.txt协议,可以在setting.py关闭
# Obey robots.txt rules
ROBOTSTXT_OBEY = True #更改为falseg不再遵守robots.txt协议
记得学习一下xpath规则:https://www.w3school.com.cn/xpath/index.asp。
开启你的爬虫之旅吧。。。