scrapy爬虫框架入门实战

最新推荐文章于 2020-05-13 17:19:14 发布

harry5508

最新推荐文章于 2020-05-13 17:19:14 发布

阅读量678

点赞数 3

分类专栏： scrapy 文章标签： Scrapy入门实战 Scrapy爬虫入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/harry5508/article/details/86478375

版权

本文是Scrapy爬虫框架的入门教程，涵盖了从认识Scrapy、框架架构、运作流程，到新建项目、创建爬虫、编辑管道文件和保存数据的全过程。通过实例讲解如何使用Scrapy爬取电影网电影排行数据，适合初学者入门。

摘要由CSDN通过智能技术生成

目录

一、认识scrapy

2.框架架构图

4.新建scrapy爬虫的大致思想

5.补充（安装scrapy）

二、开始第一个项目

2.明确目标(item)

3.制作爬虫(spider)

4.编辑管道文件(pipelines.py)

一、认识scrapy

1.简介

scrapy是一个为遍历爬行网站、分解获取数据而设计的应用程序框架，它可以应用在广泛领域：数据挖掘、信息处理和或者历史片（历史记录）打包等等。（来自百度百科）

2.框架架构图

各个模块解释：

1).Scrapy Engine(引擎)：整个框架的核心，负责通讯，信号，数据流传输。

2).Scheduler(调度器)：用来接受引擎发送过来的请求，相当于url(网址)的优先队列，他来决定爬取的地址是什么，同时去除重复的网址。

3).Downloader(下载器)：负责下载request请求并将response相应交还给引擎，再由引擎交给爬虫spider。

4).Spider(爬虫)：处理response，分析、提取数据，获取item所需要的字段，并将需要再次爬取的url提交给引擎，再次进行爬取。

5).Item Pipeline(管道)：处理spider从网页中获取到的数据实体。

3.运作流程

1).引擎询问spider处理哪个url?

2).spider提交url

3).引擎找到调度器，拿到处理requests请求url，然后再给到引擎

4).引擎找到下载器，下载requests请求，(如果失败，引擎告诉调度器记录稍后处理)

5).引擎找到spider，将下载好的数据交给spider处理

6).spider拿到response数据，分两步：(1)返回给管道处理数据(2)重复第2步，知道url提交处理完毕

注意：只有调度器中不存在任何request请求了，程序才算执行完毕。

4.新建scrapy爬虫的大致思想

1).新建项目：(scrapy startproject xxx)

2).明确目标：我要爬取哪个网站(url)，我要的实体字段是什么(编写item文件)

3).制作爬虫：spiders文件夹下创建爬虫(spiders/xxspider.py)

4).存储内容：(pipeline.py)设计管道爬取内容

5.补充（安装scrapy）

确保已经安装了pip(Python包管理工具)，执行命令：

sudo pip install scrapy

安装成功之后，输入命令：

scrapy version
可查看版本号。

如安装过程

最低0.47元/天解锁文章

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。