第九天 Python爬虫之Scrapy（框架简单使用）

SYFStrive

已于 2023-04-28 18:00:29 修改

阅读量983

点赞数 64

分类专栏： Python 文章标签： python 爬虫 scrapy

于 2022-08-09 10:07:35 首次发布

本文链接：https://blog.csdn.net/m0_61490399/article/details/126241892

版权

Python 专栏收录该内容

11 篇文章 105 订阅

订阅专栏

请添加图片描述

@作者 : SYFStrive

@博客首页 : HomePage

🥧 上一篇续文传送门

📌：个人社区（欢迎大佬们加入） 👉：社区链接🔗

📌：如果觉得文章对你有帮助可以点点关注 👉：专栏连接🔗

🥧： 感谢支持,学习累了可以先看小段由小胖给大家带来的街舞😀

🔗：阅读文章

简介

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据 (例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。
提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。

📦Scrapy使用前准备

文档如👇

官网文档：链接
C语言中文文档：链接

安装

安装语法：python -m pip install Scrapy
报错：使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn 加包名

Scrapy项目的创建，运行以及分析框架结构步骤📦

1、创建项目

scrapy startproject 项目名称
注意：项目的名字不允许使用数字开头也不能包含中文

2、创建爬虫文件

首先到项目目录下进入到目录spiders下
终端运行：scrapy genspider 爬虫名字网页的域名（如： scrapy genspider baidu www.baidu.com）
一般创建爬虫文件情况下不需要添加http协议因为start_urls起始的url值是根据allowed_domains
所以添加了http的话那么start_urls就需要我们手动去修改了
分析创建的爬虫文件

在这里插入图片描述

3、运行

scrapy crawl 爬虫的名字（如 👉 ：scrapy crawl baidu）

4、分析

项目组成：

spiders文件 → init.py

自定义的爬虫文件.py 👉 由我们自己创建，👉 是实现爬虫核心功能的文件

init.py …
items.py 👉 定义数据结构的地方，是一个继承自scrapy.Item的类
middlewares.py 👉 中间件代理
pipelines.py 👉 管道文件，里面只有一个类，用于处理下载数据的后续处理，默认是300优先级，值越小优先级越高（1‐1000）settings.py 👉 配置文件比如：是否遵守robots协议，User‐Agent定义等
settings.py （下的ROBOTSTXT_OBEY = True）说明如👇

注意（裙子协议：各大产商约定的协议）： 注释掉之后那么就不遵守robots协议了他是一个君子协议一般情况下 我们不用遵守