Scrapy简介

Scrapy是一个基于Twisted的快速、高层次的屏幕抓取和Web抓取框架,用于抓取网站并从网页中提取结构化的数据。其特点是可配置和扩展性强,包括引擎、调度器、下载器、爬虫、项目管道等组件,支持异步和非阻塞操作。工作流程包括引擎调度URL、下载器获取网页、爬虫解析数据、管道处理数据。Scrapy入门涉及创建项目、生成爬虫、提取数据和保存数据。在实际使用中,可以设置多个pipeline处理不同需求,并通过权重控制执行顺序。
摘要由CSDN通过智能技术生成


Scrapy介绍

  • 什么是Scrapy
    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取
    Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度
    官方文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
    Scrapy的好处:可配置和扩展性高,框架是Twisted异步网络框架
  • 异步和非阻塞的区别
    异步:调用在发出之后,这个调用就直接返回,不管有无结果
    非阻塞:关注的是程序在等待调用结果时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程
    在这里插入图片描述

Scrapy工作流程

在这里插入图片描述
另一种爬虫方式
在这里插入图片描述
Scrapy工作流程:
引擎是整个框架的核心
调度器接收从引擎发过来的url,并

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值