Python的爬虫框架 Scrapy 初探

一、Scrapy介绍

	Scrapy是一个为了爬取网站数据,用于快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

二、基本架构

在这里插入图片描述
Engine 引擎 整个系统的核心 数据流处理、触发事务
item 项目 定义了爬取结果的数据结构,爬取的数据会被赋值为该item对象
Schedule 调度器 接受引擎发过来的请求加入队列中,在引擎再次请求的时候
Downloader 下载内容 返回给spider
Spiders 蜘蛛 其内部定义了爬取的逻辑和网页解析规则
Item Pipeline 项目管道
Downlaod Middle 下载中间件
Spider Middle 蜘蛛中间件

三、运行过程

1、引擎: 怎么样,爬虫老弟,搞起来啊!
2、Spider: 好啊,老哥,来来来,开始吧。今天就爬xxx网站怎么样
3、引擎: 没问题,入口URL发过来!
4、Spider: 呐,入口URL是https://ww.xxx.com。
5、引擎: 调度器老弟,我这有request请求你帮我排序入队一下吧。
6、调度器: 引擎老哥,这是我处理好的request。
7、引擎: 下载器老弟,你按照下载中间件的设置帮我下载一下这个request请求。
8、下载器: 可以了,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后引擎告诉调度器,这个request下载失败了,你记录一下,我们待会儿再下载)
9、引擎: 爬虫老弟,这是下载好的东西,下载器已经按照下载中间件处理过了,你自己处理一下吧。
10、Spider: 引擎老哥,我的数据处理完毕了,这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的Item数据。
11、引擎: 管道老弟,我这儿有个item你帮我处理一下!
12、引擎: 调度器老弟,这是需要跟进URL你帮我处理下。(然后从第四步开始循环,直到获取完需要全部信息)

四、具体步骤

  1. 安装
	pip install scrapy
  1. 构建第一个项目
	scrapy  startproject {项目名称}
  1. 目录
    在这里插入图片描述
  2. spider 逻辑
		scrapy genspider jincwei {具体网址}
		

在这里插入图片描述
5. item 填充
在这里插入图片描述
就是这么简单。
6. 结果
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值