2020-07-20

scrapy很香。
scrapy纯python实现,流行的网络爬虫框架使用高级功能简化网页抓取。
它可以分为如下部分:
scrapy engine:作为引擎触发
scheduler:调度器, Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面;
Scrapy 引擎从爬虫中获取第一个页面地址,并将其作为请求放进调度器中进行调度; Scrapy 引擎从调度器中获取下一个页面的地址; 调度器返回下一个页面的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取; 爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎; Scrapy 引擎将爬取到的数据通过爬虫中间件传递给爬虫进行数据解析、提取; 爬虫处理完数据后,将提取出的数据和新的请求回传给 Scrapy 引擎; Scrapy 将提取出的数据传给数据管道进行数据清洗等操作,同时将新的请求传递给调度器准备进行下一页的爬取; 重复 2-8 步,直到调度器中没有新的请求,数据爬取结束。需要时使用
downloader:下载器,爬取网页内容,将爬取数据返回spider
item pipeline:数据管道,处理数据
download middlewares:下载器中间件
spider middlewares:爬虫中间件
scrapy工作流程:

  1. Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面;
  2. Scrapy 引擎从爬虫中获取第一个页面地址,并将其作为请求放进调度器中进行调度;
  3. Scrapy 引擎从调度器中获取下一个页面的地址; 调度器返回下一个页面的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取;
  4. 爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎;
  5. Scrapy 引擎将爬取到的数据通过爬虫中间件传递给爬虫进行数据解析、提取;
  6. 爬虫处理完数据后,将提取出的数据和新的请求回传给 Scrapy 引擎;
  7. Scrapy 将提取出的数据传给数据管道进行数据清洗等操作,同时将新的请求传递给调度器准备进行下一页的爬取;
  8. 重复 2-8 步,直到调度器中没有新的请求,数据爬取结束。

scrapy安装:cmd命令行中输入pip install scrapy
安装完毕后,命令行输入scrapy并回车,看到一下内容就说明安装成功:
Scrapy 1.7.3 - no active project
Usage: scrapy [options] [args]Available commands: bench
Run quick benchmark test fetch
Fetch a URL using the Scrapy downloader genspider
Generate new spider using pre-defined templates runspider
Run a self-contained spider (without creating a project) settings
Get settings values shell
Interactive scraping console startproject Create new project version
Print Scrapy version view Open URL in browser, as seen by Scrapy [ more ] More commands available when run from project directoryUse “scrapy -h” to see more info about a command
接着在命令行中输入explorer . 注意:explorer前面必须有空格!回车,打开目录,在这个目录里面开始编写代码即可。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值