Scrapy框架学习笔记

最新推荐文章于 2024-08-10 21:26:27 发布

m0_67147703

最新推荐文章于 2024-08-10 21:26:27 发布

阅读量370

点赞数 3

文章标签： scrapy 学习笔记

本文链接：https://blog.csdn.net/m0_67147703/article/details/139334575

版权

由于我们小组需要豆瓣影评的数据进行大模型微调，在工作开始前，我需要对scrapy爬虫框架进行大致的了解，至于细节可以编写程序边学习。

Scrapy是一个基于Python的开源网络爬虫框架，专门设计用于快速、高效地从网页中提取数据。它提供了强大的工具和机制，使得用户可以轻松地定义爬取流程、数据提取规则和数据存储方式。以下是Scrapy框架的一些关键特点和组成部分：

基于Twisted异步网络库：Scrapy使用Twisted异步网络库来处理网络请求和响应，从而能够并发地处理多个请求，提高爬取效率。
模块化设计：Scrapy框架采用了模块化设计，包括引擎（Engine）、调度器（Scheduler）、下载器（Downloader）、爬虫（Spider）和管道（Pipeline）等组件，各组件之间通过信号和槽（Signal and Slot）进行通信，使得用户可以灵活地定制和扩展爬取流程。
灵活的选择器：Scrapy提供了强大的选择器，如XPath和CSS选择器，用于定位和提取网页中的数据。
自动限速和重试：Scrapy框架支持自动限速和重试功能，可以避免对目标网站造成过大的压力，并在网络异常时自动重试请求，提高爬取成功率。
数据存储：Scrapy提供了多种数据存储方式，包括将数据保存到本地文件、数据库（如MySQL、MongoDB等）以及导出到各种格式（如JSON、CSV、XML等）。
丰富的中间件支持：Scrapy框架提供了丰富的中间件支持，用户可以通过编写中间件来修改请

第一种：在命令行模式下使用pip命令即可安装：

$ pip install scrapy

第二种：首先下载，然后再安装：

进入下载目录后执行下面命令安装：

使用大概分为下面四步

1 创建一个scrapy项目

scrapy startproject mySpider

2 生成一个爬虫

scrapy genspider demo "demo.cn"

3 提取数据

完善spider 使用xpath等

4 保存数据

pipeline中保存数据

关注