北京理工大学-Python网络爬虫与信息提取学习笔记09

pip install Scrapy安装

Scrapy不是一个函数功能库,而是一个爬虫框架
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
爬虫框架是一个半成品,能帮助用户实现专业网络爬虫
有5个主要模块,SPIDERS、ENGINE、SCHEDULER、DOWNLOADER、ITEM PIPELINE
其中用户需要编写配置的是SPIDERS和ITEM PIPELINES,剩下三个已有实现

Scrapy爬虫框架解析
ENGINE是所有模块的核心,控制所有模块之间的数据流
DOWNLIADER:根据请求下载网页
SCHEDULER:对所有爬取请求进行调度管理
Downloader Middlerware:实施ENGINE、SCHEDULER和DOWNLOADER之间进行用户可配置的控 制,修改、丢弃、新增请求或相应。用户可以编写配置编码
SPIDER:解析DOWNLOADER返回的响应,产生爬取项,产生额外的爬取请求
ITEAM PIPELINES:以流水线方式处理SPIDER产生的爬取项。由一组操作顺序组成。类似流 水线,每个操作是一个ITEM PIPELINE类型 。可能操作包括:qingli、检 验和查重爬取项中的HTML数据、将数据存储到数据库
Spider Middleware:对请求和爬取项的再处理,修改、丢弃、新增请求或爬取项,用户可 编写

Requess库和Scrapy爬虫的比较
相同点
两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线
两者可用性好,文档丰富,入门简单
两者都没有处理js、提交表单、应对验证码等功能(可扩展)

不同点

requestsScrapy
页面级爬虫网站级爬虫
功能库框架
并发性考虑不足,性能较差并发行好,性能较高
重点在于页面下载重点在于爬虫结构
定制灵活一般定制灵活,深度定制困难
上手十分简单入门稍难

Scrapy爬虫的常用命令(cmd命令 scrapy -h可查看)

格式:scrapy [ options ] [ args]

startproject 创建一个新工程 scrapy startproject[dir]
settings 获得爬虫配置信息 scrapy settings[options]
list 列出工程中所有爬虫 scrapy list
crawl 运行一个爬虫 scrapy crawl
genspider 创建一个爬虫 scrapy genspider[options][domain]
shell 启动URL调试命令 scrapy shell[url]

ps:学习链接 https://www.icourse163.org/learn/BIT-1001870001?tid=1206951268#/learn/announce

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值