网络爬虫-Scrapy框架
※夏日星空※
这个作者很懒,什么都没留下…
展开
-
一、Scrapy 框架流程介绍
Scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件借口,可以灵活地完成各种需求。Scrapy架构图:(很重要,有助于理解爬虫原理)各个组件的作用:Scrapy运作流程:(很形象)注意...原创 2019-02-19 11:58:56 · 261 阅读 · 0 评论 -
二、Scrapy安装
Windows安装方式1、先升级pip版本:pip install --upgrade pip2、通过pip安装Scrapy框架:pip install Scrapy其他系统安装方法见 网络爬虫视频 安装Scrapy出现的问题:(此方法可通用)1.出现Microsoft Visual 14.0 is required 解决方法(1)根据自己的python版本和电脑系统...原创 2019-02-19 12:02:23 · 157 阅读 · 0 评论 -
三、Scrapy 命令介绍
Scrapy必须要背会的命令1、创建项目:scrapy startproject ITcaststartproject:表示创建项目ITcast:表示创建的项目名在Windows的cmd下输入命令后会在当前目录下看到一个ITcast文件夹,目录结构大致是:各个主要文件的作用:scrapy.cfg 项目的配置文件ITcast/:项目的python模块,将会从这里引用...原创 2019-02-19 12:21:28 · 262 阅读 · 0 评论 -
四、ITcast小爬虫-- -o指定输出格式的文件
此次演示的ITcast小爬虫没有写管道文件,而是将所有的item存到一个列表中,运行爬虫时通过-o指定输出文件格式来保存信息。原理:通过下面列出的itcast.py 文件的 return items 可知,爬虫文件返回给引擎的信息并不是字段item,而是自定义的列表items,此时引擎会判断出并非item,则会按照我们的命令来存储信息。运行命令:scrapy crawl itcast -...原创 2019-02-19 15:34:39 · 675 阅读 · 0 评论 -
五、ITcast小爬虫 与管道文件
1、介绍Item Pipeline当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按照定义的顺序处理Item,每一个Item Pipeline 都是实现了简单方法的Python类Item Pipeline组件是一个独立的Python类,编写Item Pipeline时,process_item()方法必须实现2、启用...原创 2019-02-19 16:24:57 · 427 阅读 · 0 评论 -
六、Scrapy Selector使用
Selectors 选择器Scrapy Selectors内置XPath 和CSS Selector表达式机制Selectors有四个基本的方法,最常用的还是xpath:xpath():传入xpath表达式,返回该表达式所对应的所有节点的selector list列表extract():序列化该节点为Unicode字符串并返回listcss():传入CSS表达式,返回该表达式所...原创 2019-02-19 18:34:47 · 193 阅读 · 0 评论 -
七、Tencent招聘信息采集--多页面爬取数据
此项目用了两种方法爬取腾讯网的招聘信息,第一种写法:通过拼接URL的方式,此方法不够灵活,页面数不是一成不变的。适用场景:页面没有可以点击的请求链接,必须通过拼接url才能获取响应第二种写法:直接从Response获取需要爬取的链接,并发送请求处理,直到链接全部提取完。代码:https://download.csdn.net/download/qq_34681949/10967...原创 2019-02-20 20:03:08 · 321 阅读 · 0 评论