![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
五星上炕
君子悟本,本立而道生。
展开
-
Scrapy学习过程之二:架构及简单示例
1、Scrapy架构 参考:https://docs.scrapy.org/en/latest/topics/architecture.html#data-flow 以下是架构图: 从上图可以看出,Scrapy是组件化的,每个组件实现特定的功能,组件之间是独立的,松耦合的,在大规模应用中应该可以分布式部署。 红色箭头表示数据流,其它表示组件,首先对Scrapy包含那些组件,以及...原创 2019-07-24 15:55:07 · 894 阅读 · 0 评论 -
Scrapy学习过程之一:安装
原文作者:朱敬志 原文链接:https://www.cnblogs.com/zhujingzhi/p/9766965.html 感谢原文作者朱敬志,非常好的一个构建过程,很快,构建出来的镜像很小,亲测有效。 一、下载alpine镜像 [root@DockerBrian ~]# docker pull alpine Using default tag: latest Trying to p...转载 2019-07-22 18:34:48 · 219 阅读 · 0 评论 -
Scrapy学习过程之八:SPIDERS
参考:https://docs.scrapy.org/en/latest/topics/spiders.html 构架图: 就上上图中最上边那个SPIDERS,用来生成起始的REQUEST,解析返回的RESPONSE,从中提取数据并发阖家出去,另外从RESPONSE中解析出新的URL,然后生成request供中间的ENGINE调用。 scrapy.Spider 这个类是最...原创 2019-07-26 14:51:44 · 402 阅读 · 0 评论 -
Ubuntu 14.04安装Scrapy
参考:https://docs.scrapy.org/en/latest/intro/install.html 以下命令都在root用户下执行 1、更新apt-get软件源仓库: echo -e "deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse\n"\ "deb http://...原创 2019-07-22 13:34:03 · 148 阅读 · 0 评论 -
Scrapy学习过程之七:命令行工具
参考:https://docs.scrapy.org/en/latest/topics/commands.html Configuration settings 关于scrapy命令行工具的配置文件,其格式为ini。配置文件存在于以下几个地方: /etc/scrapy.cfg or c:\scrapy\scrapy.cfg 这个是系统级配置文件 ~/.config/scrapy.cfg(...原创 2019-07-25 17:43:05 · 476 阅读 · 0 评论 -
Scrapy学习过程之六:pipeline
参考:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline 架构图: Item Pipeline 就是一些简单的处理Item的类,输入是Item输出也是Item,多个类就组成一个管道。 典型用法: 清洗数据 验证数据的有效性 去重 排序 Writing your own...原创 2019-07-25 16:59:17 · 650 阅读 · 0 评论 -
Scrapy学习过程之五:item
参考:https://docs.scrapy.org/en/latest/topics/items.html#scrapy.item.Item SPIDER将从网页中提取出来的数据以dict的形式发射出去,这个dict直接写在代码中,很容易写错,也不能复用。 因此Scrapy专门提供了一个类item class,用来专门定义dict的结构,比如包含那些字段名等。这样集中管理不容易出错,出错...原创 2019-07-25 16:06:14 · 268 阅读 · 0 评论 -
Scrapy学习过程之四:Feed Export
参考:https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports 整体架构图: SPIDER提取出的数据是dict,从上图可以看出,会将这些数据发送给ENGINE,然后ENGINE再将数据交给ITEM PIPELINES。 Serialization formats Scrapy提供了几种...原创 2019-07-25 15:46:11 · 1014 阅读 · 0 评论 -
Scrapy学习过程之三:tutorial
参考:tutorial 贴出架构架构图以便参考: 本tutorial涉及到的内容: 创建一个scrapy工程 写一个spider爬网页并提取数据 使用命令行导出scrapy数据 将spider改成递归跟踪链接 给spider传递参数 Creating a project 自己先创建一个目录,然后运行如下命令: scrapy startproject tutorial 此命...原创 2019-07-25 11:51:08 · 316 阅读 · 0 评论