Python学习-爬虫框架scrapy

最新推荐文章于 2024-08-02 10:29:40 发布

在线打码

最新推荐文章于 2024-08-02 10:29:40 发布

阅读量291

点赞数

分类专栏：学习笔记文章标签：爬虫 python 大数据 js django

本文链接：https://blog.csdn.net/oNew_Lifeo/article/details/110795731

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、scrapy简介

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便

中文文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

二、scrapy流程图

在这里插入图片描述

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

三、scrapy框架创建

安装：通过python包管理器 pip install scrapy即可安装

注意：如果在windows系统下，提示错误：ModuleNotFoundError：No module named ‘win32api’，那么使用以下命令可以解决：pip install pypiwin32

创建项目：

使用scrapy框架创建项目需要通过命令来创建

scrapy startproject 【项目名称】

默认生成的目录结构：

items.py：用来存放爬虫爬取下来的数据模型

middlewares.py：用来存放各种中间件文件

pipelines.py：用来将items的模型存储到本地磁盘中

settings.py：本爬虫的一些配置信息

scrapy.cfg：项目配置文件

spiders包：存放所有的爬虫

在这里插入图片描述

四、scrapy框架入门

1、Basic Spider
使用命令创建一个基本的爬虫，进入项目所在路径

scrapy genspider 【爬虫名】【爬取的网站域名】

例子：

scrapy genspider qsbkspider “qiushibaike.com”

运行爬虫：

scrapy crawl qsbk_spider

注意：可以新建一个start.py文件来运行爬虫

from scrapy import cmdline

cmdline.execute(“scrapy crawl 【爬虫名】”.split())

2、CrawlSpider
使用命令创建一个crawl爬虫

scrapy genspider -t crawl 【爬虫名】【爬取的网站域名】
在这里插入图片描述

五、Scrapy Shell

scrapy shell 用来方便测试规则

workon crawler-env 位于项目所在路径进入虚拟环境 scrapy shell 【链接】

2020-07-12 16:54:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www
.wxapp-union.com/article-6101-1.html> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc
)
[s]   crawler    <scrapy.crawler.Crawler object at 0x000002948A7877C0>
[s]   item       {}
[s]   request    <GET http://www.wxapp-union.com/article-6101-1.html>
[s]   response   <200 http://www.wxapp-union.com/article-6101-1.html>
[s]   settings   <scrapy.settings.Settings object at 0x000002948A7875E0>
[s]   spider     <WxappSpiderSpider 'wxapp_spider' at 0x2948aadf4c0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by defa
ult, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local obj
ects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
>>> title = response.xpath("//h1[@class='ph']/text()").get()
>>> title
'最新反编译任何微信小程序，以及独立分包、插件的处理方式 ... '
>>>

在这里插入图片描述

六、Request和Response对象

在这里插入图片描述

七、下载文件和图片

传统方法下载图片:
在这里插入图片描述
使用scrapy框架自带的Image Pipline：

在线打码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习-爬虫框架scrapy

一、scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便中文文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html二、scrapy流程图Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Schedu
复制链接

扫一扫

专栏目录