2024年Python最新Scrapy框架及组件描述_scrapy爬虫框架的主要组成部分及作用，靠着这份900多页的PDF面试整理

最新推荐文章于 2024-05-15 09:19:50 发布

性能优化Java开发

最新推荐文章于 2024-05-15 09:19:50 发布

阅读量301

点赞数 3

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_60667010/article/details/138634709

版权

程序员专栏收录该内容

191 篇文章 1 订阅

订阅专栏

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

(1) 组件描述

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

(2) 数据流描述

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

二创建项目及相关组件说明

Scrapy库的安装、项目创建及简单使用参考之前的博客**Python网络爬虫之scrapy(一)，**下面主要对项目各组件进行说明

(1) 项目目录结构

D:\scrapy_project>scrapy genspider country example.webscraping.com

[外链图片转存失败(img-cSr0JtWF-1564730141711)(https://img2018.cnblogs.com/blog/1117865/201811/1117865-20181120105613079-664269694.png)]

item.py:类似Django中的models.py，用于声明数据类型，将来报错数据

middlewares.py:爬虫中间件，可以对请求和响应进行处理

pipelines.py：管道，作用是将每一个Item对象进行存储，MySql/MongoDB

settings.py：对爬虫项目进行配置

spiders：管理对各爬虫项目，具体的爬虫逻辑在各自的项目爬虫文件中

country.py：创建的爬虫项目

三 Scrapy重要类说明及部分源码分析

1. Response类

（1）查看Response类的属性

from scrapy.http import Response

for key,value in Response.__dict__.items():
            print("{0}:{1}".format(key,value))

'''
遇到问题没人解答？Python学习交流群：857662006 寻找有志同道合的小伙伴，互帮互助
群里还有不错的视频学习教程和PDF电子书！
'''
__module__:scrapy.http.response
__init__:<function Response.__init__ at 0x00000257D64B1C80>
meta:<property object at 0x00000257D64B2458>
_get_url:<function Response._get_url at 0x00000257D64B40D0>
_set_url:<function Response._set_url at 0x00000257D64B4158>
url:<property object at 0x00000257D64B24A8>
_get_body:<function Response._get_body at 0x00000257D64B4268>
_set_body:<function Response._set_body at 0x00000257D64B42F0>
body:<property object at 0x00000257D64B2728>
__str__:<function Response.__str__ at 0x00000257D64B4400>
__repr__:<function Response.__str__ at 0x00000257D64B4400>
copy:<function Response.copy at 0x00000257D64B4488>
replace:<function Response.replace at 0x00000257D64B4510>
urljoin:<function Response.urljoin at 0x00000257D64B4598>
text:<property object at 0x00000257D64B2778>
css:<function Response.css at 0x00000257D64B46A8>
xpath:<function Response.xpath at 0x00000257D64B4730>
follow:<function Response.follow at 0x00000257D64B47B8>
__dict__:<attribute '__dict__' of 'Response' objects>
__weakref__:<attribute '__weakref__' of 'Response' objects>
__doc__:None

从上面我们会看到三个重要属性（url、body和text），再查看下Response类源码会发现如下代码

url = property(_get_url, obsolete_setter(_set_url, 'url'))
body = property(_get_body, obsolete_setter(_set_body, 'body'))

@property
    def text(self):
        """For subclasses of TextResponse, this will return the body
        as text (unicode object in Python 2 and str in Python 3)
        """
        raise AttributeError("Response content isn't text")

url、body、text这就是我们在爬虫分析中需要用到的三个重要属性，都可与通过Response对象获得

例子：

'''
遇到问题没人解答？Python学习交流群：857662006 寻找有志同道合的小伙伴，互帮互助
群里还有不错的视频学习教程和PDF电子书！
'''
import scrapy
from lxml import etree

class CountrySpider(scrapy.Spider):
    name = 'country'
    allowed_domains = ['example.webscraping.com']
    start_urls = ['http://example.webscraping.com/places/default/view/Afghanistan-1']

    #该函数名不能改变，因为scrapy源码中默认callback函数的函数名就是parse
    def parse(self, response):
        from bs4 import BeautifulSoup as bs
        print(response.url)
        soup = bs(response.body)
        names = [i.string for i in soup.select('td.w2p_fl')]
        values = [j.string for j in soup.select('td.w2p_fw')]
        dic = dict(zip(names, values))
        print(dic)

2. Spider类

（1）样的方法，线查看Spider类提供的属性

import scrapy

for key,val in scrapy.Spider.__dict__.items():
            print("{}:{}".format(key,val))

__module__:scrapy.spiders
__doc__:Base class for scrapy spiders. All spiders must inherit from this
    class.
name:None
custom_settings:None
__init__:<function Spider.__init__ at 0x000001E161FFFD90>
logger:<property object at 0x000001E161785D18>
log:<function Spider.log at 0x000001E161FFFEA0>
from_crawler:<classmethod object at 0x000001E16178B208>
set_crawler:<function Spider.set_crawler at 0x000001E161FF8048>
_set_crawler:<function Spider._set_crawler at 0x000001E161FF80D0>
start_requests:<function Spider.start_requests at 0x000001E161FF8158>
make_requests_from_url:<function Spider.make_requests_from_url at 0x000001E161FF81E0>
parse:<function Spider.parse at 0x000001E161FF8268>
update_settings:<classmethod object at 0x000001E16178B240>
handles_request:<classmethod object at 0x000001E16178B278>
close:<staticmethod object at 0x000001E161FF7E80>
__str__:<function Spider.__str__ at 0x000001E161FF8488>
__repr__:<function Spider.__str__ at 0x000001E161FF8488>
__dict__:<attribute '__dict__' of 'Spider' objects>
__weakref__:<attribute '__weakref__' of 'Spider' objects>

（2）接下来对其中几个重要的属性和方法进行说明：

start_requests()

该方法会默认读取start_urls属性中定义的网址，为每一个网址生成一个Request请求对象，并返回可迭代对象

make_request_from_url(url)

该方法会被start_request()调用，该方法负责实现生成Request请求对象

close(reason)

关闭Spider时，该方法会被调用

log(message[,level,component])

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

性能优化Java开发

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
2024年Python最新Scrapy框架及组件描述_scrapy爬虫框架的主要组成部分及作用，靠着这份900多页的PDF面试整理

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫