自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

山不转的博客

山不转水转,水不转我转

  • 博客(9)
  • 收藏
  • 关注

原创 Scrapy学习过程之八:SPIDERS

参考:https://docs.scrapy.org/en/latest/topics/spiders.html构架图:就上上图中最上边那个SPIDERS,用来生成起始的REQUEST,解析返回的RESPONSE,从中提取数据并发阖家出去,另外从RESPONSE中解析出新的URL,然后生成request供中间的ENGINE调用。scrapy.Spider这个类是最...

2019-07-26 14:51:44 410

原创 Scrapy学习过程之七:命令行工具

参考:https://docs.scrapy.org/en/latest/topics/commands.htmlConfiguration settings关于scrapy命令行工具的配置文件,其格式为ini。配置文件存在于以下几个地方:/etc/scrapy.cfg or c:\scrapy\scrapy.cfg 这个是系统级配置文件 ~/.config/scrapy.cfg(...

2019-07-25 17:43:05 498

原创 Scrapy学习过程之六:pipeline

参考:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline架构图:Item Pipeline就是一些简单的处理Item的类,输入是Item输出也是Item,多个类就组成一个管道。典型用法:清洗数据 验证数据的有效性 去重 排序Writing your own...

2019-07-25 16:59:17 663

原创 Scrapy学习过程之五:item

参考:https://docs.scrapy.org/en/latest/topics/items.html#scrapy.item.ItemSPIDER将从网页中提取出来的数据以dict的形式发射出去,这个dict直接写在代码中,很容易写错,也不能复用。因此Scrapy专门提供了一个类item class,用来专门定义dict的结构,比如包含那些字段名等。这样集中管理不容易出错,出错...

2019-07-25 16:06:14 282

原创 Scrapy学习过程之四:Feed Export

参考:https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports整体架构图:SPIDER提取出的数据是dict,从上图可以看出,会将这些数据发送给ENGINE,然后ENGINE再将数据交给ITEM PIPELINES。Serialization formatsScrapy提供了几种...

2019-07-25 15:46:11 1035

原创 Scrapy学习过程之三:tutorial

参考:tutorial贴出架构架构图以便参考:本tutorial涉及到的内容:创建一个scrapy工程 写一个spider爬网页并提取数据 使用命令行导出scrapy数据 将spider改成递归跟踪链接 给spider传递参数Creating a project自己先创建一个目录,然后运行如下命令:scrapy startproject tutorial此命...

2019-07-25 11:51:08 326

原创 Scrapy学习过程之二:架构及简单示例

1、Scrapy架构参考:https://docs.scrapy.org/en/latest/topics/architecture.html#data-flow以下是架构图:从上图可以看出,Scrapy是组件化的,每个组件实现特定的功能,组件之间是独立的,松耦合的,在大规模应用中应该可以分布式部署。红色箭头表示数据流,其它表示组件,首先对Scrapy包含那些组件,以及...

2019-07-24 15:55:07 920

转载 Scrapy学习过程之一:安装

原文作者:朱敬志原文链接:https://www.cnblogs.com/zhujingzhi/p/9766965.html感谢原文作者朱敬志,非常好的一个构建过程,很快,构建出来的镜像很小,亲测有效。一、下载alpine镜像[root@DockerBrian ~]# docker pull alpineUsing default tag: latestTrying to p...

2019-07-22 18:34:48 225

原创 Ubuntu 14.04安装Scrapy

参考:https://docs.scrapy.org/en/latest/intro/install.html以下命令都在root用户下执行1、更新apt-get软件源仓库:echo -e "deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse\n"\"deb http://...

2019-07-22 13:34:03 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除