scrapy框架实现网络爬虫

最新推荐文章于 2024-09-09 13:39:05 发布

瑛琦日记

最新推荐文章于 2024-09-09 13:39:05 发布

阅读量1.1k

点赞数

文章标签： scrapy 爬虫

本文链接：https://blog.csdn.net/qq_40521068/article/details/132815763

版权

本文介绍了Scrapy，一个强大的网络爬虫框架，其基于事件的结构、异步特性、残HTML处理能力以及数据流过程。重点讲解了scrapyshell命令和Scrapy的工作原理，包括Request和Response在框架中的角色。

摘要由CSDN通过智能技术生成

1、简介

网络爬虫可以自动抓取 web 上的数据，并且分析其结构，将感兴趣的部分进行保存。

Scrapy 是个健壮（robust）的网络框架，它可以从各种数据源中抓取数据。 Scrapy 已经发展多年，能够稳定而高效的抓取大量数据，其结构是基于事件的。

2、scrapy特点

Scrapy 能够识别残缺的 HTML（并不少见）。

Scrapy 有活跃的社区（StackOverflow等）。

Scrapy 在快速成长，有越来越多的高质量功能。

3、scrapy shell命令：是常用的调试方法

scrapy shell http://news.sina.com.cn 
response.body 
response.body[:200] 
fetch(“http://www.baidu.com”) 
shelp()
response.body

4.框架结构和工作原理

scrapy基于事件的机制，利用twisted的设计实现了非阻塞的异步操作。这相比于传统的阻塞式请求，极大的提高了CPU的使用率，以及爬取效率。
可拓展，插件丰富，配置简单。
解析方便易用，scrapy封装了xpath等解析器，提供了更方便更高级的selector构造器，可有效的处理破损的HTML代码和编码

5.数据流过程

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(Request)转发给下载器。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件发送。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站

Request 和 Response 是 HTTP 协议的术语，分别代表 HTTP请求和 HTTP响应。Scrapy框架中的 Request 类和 Response 类分别是对 HTTP请求和 HTTP响应的封装 Response 对象包含获取的网页内容，这些内容一般是 Scrapy进行提取和分析的起点。

瑛琦日记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架实现网络爬虫

网络爬虫可以自动抓取 web 上的数据，并且分析其结构，将感兴趣的部分进行保存。Scrapy 是个健壮（robust）的网络框架，它可以从各种数据源中抓取数据。Scrapy 已经发展多年，能够稳定而高效的抓取大量数据，其结构是基于事件的。
复制链接

扫一扫