Scrapy:爬取豆瓣图书

本文介绍了Scrapy爬虫框架的工作原理和使用方法,包括调度器、下载器、爬虫、数据管道等组件的功能。以爬取豆瓣Top250图书为例,详细讲解了创建Scrapy项目、定义items、编写spiders、设置settings.py以及运行项目的步骤。同时,提到了如何存储爬取数据到CSV和Excel文件。
摘要由CSDN通过智能技术生成
一、Scrapy原理

工作原理:通过引擎统领其他成员协同工作。
在这里插入图片描述

在使用Scrapy的时候,不需要关心爬虫的每个流程,scrapy中的网络请求都是默认异步模式,请求和返回都会由引擎自动分配处理。如果某个请求出现异常,框架会做异常处理,跳过这个异常的请求,继续去执行后面的程序。

Scheduler(调度器)主要负责处理引擎发送过来的requests对象,把请求的url以有序的方式排列成队,等待引擎提取(类似gevent库的queue模块)。(Scrapy已实现)

Downloader(下载器)负责处理引擎发送过来的requests,进行网页爬取,并将返回的response交给引擎,对应爬虫流程中的【获取数据】。(Scrapy已实现)

Spiders(爬虫)负责创建requests对象和接受引擎发送过来的response,从中解析并提取出有用的数据,对应爬虫流程中【解析数据】和【提取数据】。

Item Pipeline(数据管道)负责存储和处理Spiders提取到的有用数据,对应爬虫流程中的【存储数据】。

二、Scrapy的用法

项目目标:爬取豆瓣Top250图书。

实现步骤:明确目标、分析过程、代码实现。

代码实现——创建项目

前提:安装Scrapy : pip install scrapy -i https://pypi.douban.com/simple

1、打开终端(win+R,输入cmd),进入想要保存项目的目录下(例如我保存项目的文件夹位置:D:\Code_WorkPlace\Python_WorkPlace\scrapy_project;先在命令行输入【d:】跳转到d盘,再输入【cd D:\Code_WorkPlace\Python_WorkPlace\scrapy_projec

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值