python-爬虫-scrapy框架

最新推荐文章于 2019-03-21 18:40:23 发布

hzyuhz

最新推荐文章于 2019-03-21 18:40:23 发布

阅读量161

点赞数

分类专栏： python 爬虫文章标签： python scrapy

本文链接：https://blog.csdn.net/hzyuhz/article/details/87784619

版权

python 同时被 2 个专栏收录

26 篇文章 1 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

一>.爬虫框架scrapy的理解

在这里插入图片描述

 - 引擎(Scrapy):用来处理整个系统的数据流, 触发事务(框架核心)
 - 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.
 - 下载器(Downloader):用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy)
 - 爬虫(Spiders):用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
 - 下载器中间件(Downloader Middlewares):位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
 - 爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出
 - 调度中间件(Scheduler Middewares):介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

二>.爬虫框架scrapy的使用方法

1.安装爬虫框架 		--> pip install scrapy
2.检查是否安装成功 		--> scrapy 
3.创建一个scrapy框架，命名为myspider 		-->scrapy startproject mooc
4.安转tree，查看scrapy框架  		--> yum install tree
5.在scrapy中创建一个爬虫spider；命名为moooc，链接地址为www.imooc.com
  		-->scrapy genspider curric_info 'www.imooc.com'
6.在scrapy框架中编写爬虫（curric_info）解析内容，获取网页上需要的内容
7.查看编写内容是否正确：		---> scrapy crawl curric_info
8.curric_info将获取的信息发送到mooc.items里面，items将爬取的信息保存
9.设置mooc.pipelines管道的优先级`
10.items将保存的信息传送到mooc.pipelines中，在pipelines中选择保存到本地(csv, json, pymysql, redis)中
11.设置pipelines中的保存方式
12.查看是否保存成功		----> scrapy crawl curric_info

三>.使用爬虫框架scrapy爬取慕课网的实战项目相关信息

2.检查是否安装成功 --> scrapy
在这里插入图片描述 3.创建一个scrapy框架，命名为myspider -->scrapy startproject mooc

5.在scrapy中创建一个爬虫spider；命名为moooc，链接地址为www.imooc.com

6.在scrapy框架中编写爬虫（curric_info）解析内容，获取网页上需要的内容

6.3 url跟进，获取下一页是否有链接，如果有，爬取下一页的内容
在这里插入图片描述
6.4 查看scrapy框架语句是否正确

8.curric_info将获取的信息发送到mooc.items里面，items将爬取的信息保存

9.设置mooc.pipelines管道的优先级

10.items将保存的信息传送到mooc.pipelines中，在pipelines中选择保存到本地(csv, json, pymysql, redis)中
在这里插入图片描述
10.2.3. pipelines的其他保存方式

10.4 查找图片的下载

12.查看是否保存成功 ----> scrapy crawl curric_info

hzyuhz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-爬虫-scrapy框架

一&gt;.爬虫框架scrapy的理解 - 引擎(Scrapy):用来处理整个系统的数据流, 触发事务(框架核心) - 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. - 下载器(Downloader):用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy) - 爬虫(Spiders):用于从特定的网页中提取自己需要的信息, 即所...
复制链接

扫一扫

专栏目录