一>.爬虫框架scrapy的理解
- 引擎(Scrapy):用来处理整个系统的数据流, 触发事务(框架核心)
- 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.
- 下载器(Downloader):用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy)
- 爬虫(Spiders):用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
- 下载器中间件(Downloader Middlewares):位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
- 爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出
- 调度中间件(Scheduler Middewares):介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
二>.爬虫框架scrapy的使用方法
1.安装爬虫框架 --> pip install scrapy
2.检查是否安装成功 --> scrapy
3.创建一个scrapy框架,命名为myspider -->scrapy startproject mooc
4.安转tree,查看scrapy框架 --> yum install tree
5.在scrapy中创建一个爬虫spider;命名为moooc,链接地址为www.imooc.com
-->scrapy genspider curric_info 'www.imooc.com'
6.在scrapy框架中编写爬虫(curric_info)解析内容,获取网页上需要的内容
7.查看编写内容是否正确: ---> scrapy crawl curric_info
8.curric_info将获取的信息发送到mooc.items里面,items将爬取的信息保存
9.设置mooc.pipelines管道的优先级`
10.items将保存的信息传送到mooc.pipelines中,在pipelines中选择保存到本地(csv, json, pymysql, redis)中
11.设置pipelines中的保存方式
12.查看是否保存成功 ----> scrapy crawl curric_info
三>.使用爬虫框架scrapy爬取慕课网的实战项目相关信息
2.检查是否安装成功 --> scrapy
3.创建一个scrapy框架,命名为myspider -->scrapy startproject mooc
5.在scrapy中创建一个爬虫spider;命名为moooc,链接地址为www.imooc.com
6.在scrapy框架中编写爬虫(curric_info)解析内容,获取网页上需要的内容
6.3 url跟进,获取下一页是否有链接,如果有,爬取下一页的内容
6.4 查看scrapy框架语句是否正确
8.curric_info将获取的信息发送到mooc.items里面,items将爬取的信息保存
9.设置mooc.pipelines管道的优先级
10.items将保存的信息传送到mooc.pipelines中,在pipelines中选择保存到本地(csv, json, pymysql, redis)中
10.2.3. pipelines的其他保存方式
10.4 查找图片的下载
12.查看是否保存成功 ----> scrapy crawl curric_info