scrapy框架简单了解

scrapy:是一个遍历爬行网站 ,分析获取数据而设计的应用程序框架,原本设计用于屏幕抓取(网络抓取)也可以用来访问api来提取数据;广泛应用与数据挖掘、信息处理、历史片打包等等。

“5+2”结构

在这里插入图片描述
Engine:不需要用户修改

  • 控制所有模块之间的数据流
  • 根据条件触发事件

Downloader:不需要用户修改

  • 根据请求下载网页

Scheduler:不需要用户修改

  • 对所有爬取请求调度管理

Downloader Middleware:

目的: 实施Engine,Scheduler和Downloader之间进行用户可配置的控制。

功能: 修改、丢弃、新增请求响应

可以编写配置代码,一般用户不对requests或response进行修改,不需要编写配置代码

Spider:

  • 解析Downloader返回的响应(response)
  • 产生爬取项(scraped item)
  • 产生额外的爬去请求(request)

需要用户编写配置代码

Item Pipelines

  • 以流水线方式处理Spider产生的爬取项
  • 由一组操作顺序组成,类似流水线,每一个操作是一个iten pipeline类型
  • 可能操作包括:清理、检验和查重爬取项中的HTML,数据将数据储存到数据库。

需要用户编写配置文件

Spider Middleware:

目的: 对用户和爬取项的再处理

功能: 修改、丢弃、新增请求响应或爬取项

用户可编写配置代码

requestsscrapy
网页级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能较差并发性好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深度定制困难
上手简单入门稍难

爬去大量网页建议采用scrapy框架
小请求爬取,建议requests
周期性,对爬取结果进行积累建议scrapy框架
定制程度高,建议自行搭建框架,requests>scrapy
scrapy命令行
在cmd中输入scrapy -h查看scrapy命令行
在这里插入图片描述

命令说明格式
startproject创建新工程scrapy startproject < name >[ dir ]
genspider创建爬虫scrapy genspider [ options ] < name > < domain >
settings获得爬虫配置信息scrapy settings [ options ]
crawl运行爬虫scrapy crawl < spider >
list列出工程中所有爬虫scrapy list
shell启动url调试命令行scrapy shell [ url ]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值