![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
文章平均质量分 92
叫我阿柒啊
从事大数据、java、python。
展开
-
Scrapy08:scrapy-deltafetch,让爬虫有了记忆
Scrapy08:scrapy-deltafetch,让爬虫有了记忆原创 2022-09-28 18:27:10 · 503 阅读 · 1 评论 -
Scrapy入门到放弃07:scrapyd、gerapy,界面化启停爬虫
前言上一篇的枯燥无味,就用这一篇来填补一下。写到插件篇了,终于能写点有意思的东西了,接下来就Scrapy基本概念和插件篇来穿插着写一写。在我们以往开发的爬虫中,不论是Java的Jsoup,还是Python的requests,启动方式和普通的应用程序没什么两样,都是通过命令来本机运行。但Scrapy提供了远程启停爬虫的服务Scrapyd。Scrapyd基于http协议开放了API,以此来远程启停爬虫。而第三方插件Gerapy作为一个分布式爬虫管理框架,基于Scrapyd又封装了一个web应用,在网页上原创 2021-11-19 09:46:30 · 805 阅读 · 1 评论 -
Scrapy入门到放弃06:Spider中间件
前言写一写Spider中间件吧,都凌晨了,一点都不想写,主要是也没啥用…哦不,是平时用得少。因为工作上的事情,已经拖更好久了,这次就趁着半夜写一篇。Scrapy-deltafetch插件是在Spider中间件实现的去重逻辑,开发过程中个人用的还是比较少一些的。作用依旧是那张熟悉的架构图,不出意外,这张图是最后一次出现在Scrapy系列文章中了。如架构图所示,Spider中间件位于Spiders(程序)和engine之间,在Item即将拥抱Pipeline之前,对Item和Response进行处理原创 2021-11-10 22:41:19 · 868 阅读 · 1 评论 -
Scrapy入门到放弃05:让Item在Pipeline飞一会
前言“又回到最初的起点,呆呆地站在镜子前”。本来这篇是打算写Spider中间件的,但是因为这一块涉及到Item,所以这篇文章先将Item讲完,顺便再讲讲Pipeline,然后再讲Spider中间件。Item和Pipeline依旧是先上架构图。从架构图中可以看出,当下载器从网站获取了网页响应内容,通过引擎又返回到了Spider程序中。我们在程序中将响应内容通过css或者xpath规则进行解析,然后构造成Item对象。而Item和响应内容在传递到引擎的过程中,会被Spider中间件进行处理。最后P原创 2021-08-23 21:04:05 · 200 阅读 · 0 评论 -
Scrapy入门到放弃04:下载器中间件,让爬虫更完美
前言MiddleWare,顾名思义,中间件。主要处理请求(例如添加代理IP、添加请求头等)和处理响应本篇文章主要讲述下载器中间件的概念,以及如何使用中间件和自定义中间件。MiddleWare分类依旧是那张熟悉的架构图。从图中看,中间件主要分为两类:Downloader MiddleWare:下载器中间件Spider MiddleWare:Spider中间件本篇文主要介绍下载器中间件,先看官方的定义:下载器中间件是介于Scrapy的request/response处理的钩子框架。 是原创 2021-08-05 11:31:57 · 675 阅读 · 0 评论 -
Scrapy入门到放弃03:理解settings配置,监控Scrapy引擎
前言代码未动,配置先行。本篇文章主要讲述一下Scrapy中的配置文件settings.py的参数含义,以及如何去获取一个爬虫程序的运行性能指标。这篇文章无聊的一匹,没有代码,都是配置化的东西,但是呢不学还不行,属于Scrapy的枢纽,很关键。所以还请各位看官老爷耐得住这一章的寂寞。settings.py在我们创建一个Scrapy项目的时候,就会在项目下生成四个py文件,其中就有一个settings.py。其中大大小小配置也是有大几十个,这里只讲一些比较常见的,其他的还请移步官方文档。官文配置参数说原创 2021-07-30 09:46:04 · 454 阅读 · 0 评论 -
scrapy入门到放弃02:整一张架构图,开发一个程序
前言Scrapy开门篇写了一些纯理论知识,这第二篇就要直奔主题了。先来讲讲Scrapy的架构,并从零开始开发一个Scrapy爬虫程序。本篇文章主要阐述Scrapy架构,理清开发流程,掌握基本操作。整体架构自己动手画架构图一张:这就是Scrapy的整体架构,看起来流程比较复杂,但其实需要开发者参与的部分不多。这里先介绍一下各个部分。Spider:要开发的爬虫程序,用来定义网站入口,实现解析逻辑并发起请求。Pipeline:数据管道,可自定义实现数据持久化方式。Middleware:中间件,原创 2021-07-07 10:38:28 · 262 阅读 · 0 评论