scrapy
scrapy的学习记录
公众号菜鸟童靴
在不退步的同时,保持的一点点的进步,欢迎关注个人博客https://boyyongxin.github.io/
微信公众号:菜鸟童靴
展开
-
Scrapy爬虫框架(四)Downloader Middleware介绍
了解scrapy原理后,我们知道 downloader Middleware 在整个架构中的作用的位置: 1、在Scheduler 调度处队列的Request发送给Downloade 下载之前,也就是request执行下载之前对其进行修改 2、在下载后生成的response 发送给Spider之前,也就是我们可以在生成的resopnse被spider解析之前修改 Downloader...原创 2019-12-14 16:52:55 · 597 阅读 · 0 评论 -
Scrapy爬虫框架(三)Item Pipeline 介绍
1、scrapy爬取数据保存到文件 scrapy crawl 项目名 -o 文件名.json 2、保存的文件类型还有很多种 csv,xml,pickle,marshal,ftp远程输出 其他的写法差不多,ftp输出需要配置用户名,密码,地址,输出路径 scrapy crawl 程序名 -o ftp://user:pass@ftp.example.com/path/to/tes...原创 2019-12-07 18:58:32 · 328 阅读 · 0 评论 -
Scrapy爬虫框架(二)入门实战
1.创建项目 scrapy startproject XX项目名XX scrapy startproject guangdong_chizheng 2.创建spider爬虫py文件 cd guangdong_chizheng scrapy genspider example example.com 查看创建后的代码: # -*- coding: utf-8 -*- impor...原创 2019-11-30 16:18:38 · 254 阅读 · 0 评论 -
Scrapy爬虫框架(一)原理介绍
Scrapy爬虫原理: 架构分为如下几个部分: Scrapy Engine:引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,此组件相当于爬虫的“大脑”,是整个爬虫的调度中心。 调度器(Scheduler):调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。 初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器...原创 2019-11-23 14:40:25 · 399 阅读 · 0 评论