python爬虫之Scrapy(一)_py scra-CSDN博客

本文链接：https://blog.csdn.net/Java_KW/article/details/118650471

文章目录

- scrapy框架

scrapy框架

安装

pip install scrapy

创建一个scrapy项目

scrapy startproject tutorial

创建一个tutorial包含以下内容的目录：

tutorial/
    scrapy.cfg            # 项目的配置文件
    tutorial/             # python模块，在这里添加你的爬虫项目
        __init__.py
        items.py          # 项目的字段定义文件
        middlewares.py    # 项目的中间件文件
        pipelines.py      # 项目的管道文件，一般用于保存数据
        settings.py       # 项目的设置文件
        spiders/          # 一个爬虫目录，用于存放爬虫文件
            __init__.py

在这里插入图片描述

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

制作 Scrapy 爬虫一共需要4步：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容

终端工具命令

查看命令的相关信息
scrapy <command> -h

查看所有可用命令
scrapy -h

全局命令：
startproject
genspider
settings
runspider
shell
fetch
view
version

项目专用命令：
crawl
check
list
edit
parse
bench

1、创建项目
语法：scrapy startproject <project_name> [project_dir]
是否需要项目：否

在project_dir 目录下创建一个名为 project_name的新 Scrapy 项目。如果project_dir未指定，project_dir将与project_name同名.

例如：scrapy startproject myproject

2、创建爬虫项目
语法：scrapy genspider [-t template] <name> <domain>
是否需要项目：否

spiders如果从项目内部调用，则在当前文件夹或当前项目的文件夹中创建一个新爬虫。该<name>参数设置为爬虫的name，而<domain>用于生成allowed_domains和start_urls爬虫的属性。

例如：
	scrapy genspider -l 列出可用的模板
	scrapy genspider -t crawl scrapyorg scrapy.org

3、启动爬虫
语法：scrapy crawl <spider>
是否需要项目：是

开始爬虫启动

例如：scrapy crawl myspider

4、查看
语法：scrapy check [-l] <spider>
是否需要项目：是

运行合同检查

例如：
	scrapy check -l
	scrapy check

5、列表
语法：scrapy list
是否需要项目：是

列出当前所有可用的爬虫。

6、编辑
语法：scrapy edit <spider>
是否需要项目：是

使用EDITOR环境变量中定义的编辑器或（如果未设置）EDITOR设置编辑给定的蜘蛛。

7、查看某个网址内容
语法：scrapy fetch <url>
是否需要项目：否

使用scrapy下载器下载给定的url并将内容标准输出。

支持的选项：
	--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定蜘蛛
	--headers: 打印响应的 HTTP 标头而不是响应的正文
	--no-redirect：不遵循 HTTP 3xx 重定向（默认是遵循它们）
	--nolog：不打印日志

例如：
	scrapy fetch --nolog http://www.example.com/some/page.html
	scrapy fetch --nolog --headers http://www.example.com/

8、查看view
语法：scrapy view <url>
是否需要项目：否

在浏览器中打开给定的 URL，因为你的 Scrapy 蜘蛛会“看到”它。有时蜘蛛看到的页面与普通用户不同，因此这可用于检查蜘蛛“看到”的内容并确认它是您所期望的。

支持的选项：
	--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定蜘蛛
	--no-redirect：不遵循 HTTP 3xx 重定向（默认是遵循它们）

例如：scrapy view http://www.example.com/some/page.html

9、shell
语法：scrapy shell [url]
是否需要项目：否

为给定的 URL（如果给定）启动 Scrapy shell，如果没有给定 URL，则为空。还支持 UNIX 风格的本地文件路径，可以是相对的 ./或../前缀或绝对文件路径。

支持的选项：
	--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定蜘蛛
	-c code: 在 shell 中评估代码，打印结果并退出
	--no-redirect：不遵循 HTTP 3xx 重定向（默认是遵循它们）；这只会影响您可以在命令行上作为参数传递的 URL；一旦进入 shell，fetch(url)默认情况下仍将遵循 HTTP 重定向。

例如：
	scrapy shell http://www.example.com/some/page.html

	scrapy shell --nolog http://www.example.com/ -c (response.status,response.url)

10、解析parse
语法：scrapy parse <url> [options]
是否需要项目：是

获取给定的 URL 并使用处理它的蜘蛛解析它，使用与--callback选项一起传递的方法

支持的选项：
	--spider=SPIDER：绕过蜘蛛自动检测并强制使用特定蜘蛛
	--a NAME=VALUE: 设置蜘蛛参数（可能会重复）
	--callback或-c：用作解析响应的回调的蜘蛛方法
	--meta或-m：将传递给回调请求的附加请求元。这必须是有效的 json 字符串。示例：–meta='{“foo” : “bar”}'
	--cbkwargs：将传递给回调的附加关键字参数。这必须是有效的 json 字符串。示例：–cbkwargs='{“foo” : “bar”}'
	--pipelines：通过管道处理项目
	--rules或-r：使用CrawlSpider 规则来发现用于解析响应的回调（即蜘蛛方法）
	--noitems: 不显示被刮掉的物品
	--nolinks: 不显示提取的链接
	--nocolour: 避免使用 pygments 为输出着色
	--depth或-d：应递归跟踪请求的深度级别（默认值：1）
	--verbose或-v: 显示每个深度级别的信息
	--output或-o：将抓取的项目转储到文件中

例如：scrapy parse http://www.example.com/ -c parse_item

11、设置
语法：scrapy settings [options]
是否需要项目：是

获取scrapy设置的值
如果在项目中使用，它将显示项目设置值，否则将显示该设置的默认 Scrapy 值。

例如：
	scrapy settings --get BOT_NAME
		tuto
	scrapy settings --get DOWNLOAD_DELAY
		0

12、运行spider
语法：scrapy runspider <spider_file.py>
是否需要项目：否

在 Python 文件中运行spider，而无需创建项目。

例如：scrapy runspider myspider.py

13、版本
语法：scrapy version [-v]
是否需要项目：否

打印 Scrapy 版本。如果与-v它一起使用，还会打印 Python、Twisted 和平台信息，这对错误报告很有用。

14、bench
语法：scrapy bench
是否需要项目：否

测试scrapy运行的速