网络爬虫-Scrapy框架
※夏日星空※
这个作者很懒,什么都没留下…
展开
-
一、Scrapy 框架流程介绍
Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件借口,可以灵活地完成各种需求。 Scrapy架构图:(很重要,有助于理解爬虫原理) 各个组件的作用: Scrapy运作流程:(很形象) 注意...原创 2019-02-19 11:58:56 · 261 阅读 · 0 评论 -
二、Scrapy安装
Windows安装方式 1、先升级pip版本:pip install --upgrade pip 2、通过pip安装Scrapy框架:pip install Scrapy 其他系统安装方法见 网络爬虫视频 安装Scrapy出现的问题:(此方法可通用) 1.出现Microsoft Visual 14.0 is required 解决方法 (1)根据自己的python版本和电脑系统...原创 2019-02-19 12:02:23 · 157 阅读 · 0 评论 -
三、Scrapy 命令介绍
Scrapy必须要背会的命令 1、创建项目:scrapy startproject ITcast startproject:表示创建项目 ITcast:表示创建的项目名 在Windows的cmd下输入命令后会在当前目录下看到一个ITcast文件夹,目录结构大致是: 各个主要文件的作用: scrapy.cfg 项目的配置文件 ITcast/:项目的python模块,将会从这里引用...原创 2019-02-19 12:21:28 · 262 阅读 · 0 评论 -
四、ITcast小爬虫-- -o指定输出格式的文件
此次演示的ITcast小爬虫没有写管道文件,而是将所有的item存到一个列表中,运行爬虫时通过-o指定输出文件格式来保存信息。 原理:通过下面列出的itcast.py 文件的 return items 可知,爬虫文件返回给引擎的信息并不是字段item,而是自定义的列表items,此时引擎会判断出并非item,则会按照我们的命令来存储信息。 运行命令:scrapy crawl itcast -...原创 2019-02-19 15:34:39 · 675 阅读 · 0 评论 -
五、ITcast小爬虫 与管道文件
1、介绍Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline, 这些Item Pipeline组件按照定义的顺序处理Item,每一个Item Pipeline 都是实现了简单方法的Python类 Item Pipeline组件是一个独立的Python类,编写Item Pipeline时,process_item()方法必须实现 2、启用...原创 2019-02-19 16:24:57 · 427 阅读 · 0 评论 -
六、Scrapy Selector使用
Selectors 选择器 Scrapy Selectors内置XPath 和CSS Selector表达式机制 Selectors有四个基本的方法,最常用的还是xpath: xpath():传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 extract():序列化该节点为Unicode字符串并返回list css():传入CSS表达式,返回该表达式所...原创 2019-02-19 18:34:47 · 193 阅读 · 0 评论 -
七、Tencent招聘信息采集--多页面爬取数据
此项目用了两种方法爬取腾讯网的招聘信息, 第一种写法:通过拼接URL的方式,此方法不够灵活,页面数不是一成不变的。 适用场景:页面没有可以点击的请求链接,必须通过拼接url才能获取响应 第二种写法:直接从Response获取需要爬取的链接,并发送请求处理,直到链接全部提取完。 代码: https://download.csdn.net/download/qq_34681949/10967...原创 2019-02-20 20:03:08 · 321 阅读 · 0 评论