Scrapy框架学习笔记

由于我们小组需要豆瓣影评的数据进行大模型微调,在工作开始前,我需要对scrapy爬虫框架进行大致的了解,至于细节可以编写程序边学习。

Scrapy是一个基于Python的开源网络爬虫框架,专门设计用于快速、高效地从网页中提取数据。它提供了强大的工具和机制,使得用户可以轻松地定义爬取流程、数据提取规则和数据存储方式。以下是Scrapy框架的一些关键特点和组成部分:

  1. 基于Twisted异步网络库:Scrapy使用Twisted异步网络库来处理网络请求和响应,从而能够并发地处理多个请求,提高爬取效率。

  2. 模块化设计:Scrapy框架采用了模块化设计,包括引擎(Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和管道(Pipeline)等组件,各组件之间通过信号和槽(Signal and Slot)进行通信,使得用户可以灵活地定制和扩展爬取流程。

  3. 灵活的选择器:Scrapy提供了强大的选择器,如XPath和CSS选择器,用于定位和提取网页中的数据。

  4. 自动限速和重试:Scrapy框架支持自动限速和重试功能,可以避免对目标网站造成过大的压力,并在网络异常时自动重试请求,提高爬取成功率。

  5. 数据存储:Scrapy提供了多种数据存储方式,包括将数据保存到本地文件、数据库(如MySQL、MongoDB等)以及导出到各种格式(如JSON、CSV、XML等)。

  6. 丰富的中间件支持:Scrapy框架提供了丰富的中间件支持,用户可以通过编写中间件来修改请

我参考了文章从原理到实战,一份详实的 Scrapy 爬虫教程-CSDN博客 来进行scrapy环境的安装。

第一种:在命令行模式下使用pip命令即可安装:

$ pip install scrapy

第二种:首先下载,然后再安装:

  1. $ pip download scrapy -d ./

  2. # 通过指定国内镜像源下载 

  3. $pip download  -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy -d ./

进入下载目录后执行下面命令安装:

使用大概分为下面四步

1 创建一个scrapy项目

scrapy startproject mySpider

2 生成一个爬虫

scrapy genspider demo "demo.cn"

3 提取数据

完善spider 使用xpath等

4 保存数据

pipeline中保存数据
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值