python-爬虫-scrapy框架

一>.爬虫框架scrapy的理解

在这里插入图片描述

 - 引擎(Scrapy):用来处理整个系统的数据流, 触发事务(框架核心)
 - 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.
 - 下载器(Downloader):用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy)
 - 爬虫(Spiders):用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
 - 下载器中间件(Downloader Middlewares):位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
 - 爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出
 - 调度中间件(Scheduler Middewares):介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

二>.爬虫框架scrapy的使用方法

1.安装爬虫框架 		--> pip install scrapy
2.检查是否安装成功 		--> scrapy 
3.创建一个scrapy框架,命名为myspider 		-->scrapy startproject mooc
4.安转tree,查看scrapy框架  		--> yum install tree
5.在scrapy中创建一个爬虫spider;命名为moooc,链接地址为www.imooc.com
  		-->scrapy genspider curric_info 'www.imooc.com'
6.在scrapy框架中编写爬虫(curric_info)解析内容,获取网页上需要的内容
7.查看编写内容是否正确:		---> scrapy crawl curric_info
8.curric_info将获取的信息发送到mooc.items里面,items将爬取的信息保存
9.设置mooc.pipelines管道的优先级`
10.items将保存的信息传送到mooc.pipelines中,在pipelines中选择保存到本地(csv, json, pymysql, redis)中
11.设置pipelines中的保存方式
12.查看是否保存成功		----> scrapy crawl curric_info

三>.使用爬虫框架scrapy爬取慕课网的实战项目相关信息

2.检查是否安装成功 --> scrapy
在这里插入图片描述3.创建一个scrapy框架,命名为myspider -->scrapy startproject mooc
在这里插入图片描述
5.在scrapy中创建一个爬虫spider;命名为moooc,链接地址为www.imooc.com
在这里插入图片描述
6.在scrapy框架中编写爬虫(curric_info)解析内容,获取网页上需要的内容
在这里插入图片描述
6.3 url跟进,获取下一页是否有链接,如果有,爬取下一页的内容
在这里插入图片描述
6.4 查看scrapy框架语句是否正确
在这里插入图片描述
8.curric_info将获取的信息发送到mooc.items里面,items将爬取的信息保存
在这里插入图片描述
9.设置mooc.pipelines管道的优先级
在这里插入图片描述
10.items将保存的信息传送到mooc.pipelines中,在pipelines中选择保存到本地(csv, json, pymysql, redis)中
在这里插入图片描述
10.2.3. pipelines的其他保存方式
在这里插入图片描述
在这里插入图片描述
10.4 查找图片的下载
在这里插入图片描述
在这里插入图片描述
12.查看是否保存成功 ----> scrapy crawl curric_info
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值