1、Scrapy简介
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
本来我是基于Python3.5学习爬虫的,但是Python3.x不支持Scrapy框架。即便不支持,也不能就此放弃这个强大的框架,于是转战Ubuntu,搭建Python2.7环境,安装Scrapy,开始学习~~~
2、环境搭建
【1】系统Ubuntu 15
【2】Python版本 -- 2.7 & 3.4 , 安装pip工具
我的Ubuntu系统上安装了Python2.7和Python3.4两个版本,但是默认配置依然是2.7。
【3】安装Scrapy
使用命令(apt-get install python-scrapy)或者(pip install scrapy)安装:
验证安装完成:
出现上图内容,说明正确安装Scrapy。其实Scrapy框架依赖setuptools,lxml,以及OpenSSL软件,但是Ubuntu中Python2.7已经内置安装,所以,一个简单的命令即可完成Scrapy框架的配置,非常简便。
至此,Scrapy已经配置完成,下面开始我们的第一个Scrapy爬虫项目吧。
3、第一个Scrapy爬虫实例
此实例源于官网(
Scrapy入门教程)。
3.1 开发步骤
接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。
- 创建一个Scrapy项目
- 定义提取的Item
- 编写爬取网站的 spider 并提取 Item
- 编写 Item Pipeline 来存储提取到的Item(即数据)
- scrapy.cfg: 项目的配置文件.
- tutorial/: 该项目的python模块。之后您将在此加入代码.
- tutorial/items.py: 项目中的item文件.
- tutorial/pipelines.py: 项目中的pipelines文件.
- tutorial/settings.py: 项目的设置文件.
- tutorial/spiders/: 放置spider代码的目录.
3.3 定义Item
Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。item可以用scrapy.item.Item类来创建,并且用scrapy.item.Field对象来定义属性(可以理解成类似于ORM的映射关系)。类似在ORM中做的一样,您可以通过创建一个 scrapy.Item 类, 并且定义类型为 scrapy.Field 的类属性来定义一个Item。
首先根据需要从dmoz.org获取到的数据对item进行建模。 我们需要从dmoz中获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件,添加类DmozItem:
3.4 编写第一个爬虫
Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。
其包含了一个用于下载的初始URL,如何跟进网页中的链接以及如何分析页面中的内容, 提取生成 item 的方法。
为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:
其包含了一个用于下载的初始URL,如何跟进网页中的链接以及如何分析页面中的内容, 提取生成 item 的方法。
为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:
- name: 用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。
- start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取。
- parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
...中间省略
最后一句INFO: Closing spider (finished)表明爬虫已经成功运行并且自行关闭了。
最后一句INFO: Closing spider (finished)表明爬虫已经成功运行并且自行关闭了。
查看包含 [dmoz] 的输出,可以看到输出的log中包含定义在 start_urls 的初始URL,并且与spider中是一一对应的。在log中可以看到其没有指向其他页面( (referer:None) )。
那么,刚才发生了什么?
首先,Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了Request。
然后,Request对象经过调度,执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。
首先,Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了Request。
然后,Request对象经过调度,执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。
3.4.2 使用XPath
Selectors选择器简介:
从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 和 CSS 表达式机制: Scrapy Selectors 。 关于selector和其他提取机制的信息请参考 Selector文档 。
这里给出XPath表达式的例子及对应的含义:
从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 和 CSS 表达式机制: Scrapy Selectors 。 关于selector和其他提取机制的信息请参考 Selector文档 。
这里给出XPath表达式的例子及对应的含义:
- /html/head/title: 选择HTML文档中 <head> 标签内的 <title> 元素
- /html/head/title/text(): 选择上面提到的 <title> 元素的文字
- //td: 选择所有的 <td> 元素
- //div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素
Selector有四个基本的方法:
- xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。
- css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表。
- extract(): 序列化该节点为unicode字符串并返回list。
- re(): 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。
首先,先查看一下我们需要爬取的网页http://www.dmoz.org/Computers/Programming/Languages/Python/Books/
为了介绍Selector的使用方法,接下来我们将要使用内置的 Scrapy shell 。Scrapy Shell需要您预装好IPython(一个扩展的Python终端)。进入项目的根目录,执行下列命令来启动shell:
当shell载入后,您将得到一个包含response数据的本地 response 变量。输入 response.body 将输出response的包体, 输出 response.headers 可以看到response的包头。
更为重要的是,当输入 response.selector 时, 您将获取到一个可以用于查询返回数据的selector(选择器), 以及映射到 response.selector.xpath() 、 response.selector.css() 的 快捷方法(shortcut): response.xpath() 和 response.css() 。
同时,shell根据response提前初始化了变量 sel 。该selector根据response的类型自动选择最合适的分析规则(XML vs HTML)。
让我们来试试:
更为重要的是,当输入 response.selector 时, 您将获取到一个可以用于查询返回数据的selector(选择器), 以及映射到 response.selector.xpath() 、 response.selector.css() 的 快捷方法(shortcut): response.xpath() 和 response.css() 。
同时,shell根据response提前初始化了变量 sel 。该selector根据response的类型自动选择最合适的分析规则(XML vs HTML)。
让我们来试试:
xpath路径表达式(说明):
表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
3.4.3 查看网页源代码,提取有用数据
在查看了网页的源码后,您会发现网站的信息是被包含在 第二个 <ul> 元素中。
我们可以通过这段代码选择该页面中网站列表里所有 <li> 元素:
sel.xpath('//ul/li')
网站的描述:
sel.xpath('//ul/li/text()').extract()
网站的标题:
sel.xpath('//ul/li/a/text()').extract()
以及网站的链接:
sel.xpath('//ul/li/a/@href').extract()
之前提到过,每个 .xpath() 调用返回selector组成的list,因此我们可以拼接更多的 .xpath() 来进一步获取某个节点。我们将在下边使用这样的特性:
我们可以通过这段代码选择该页面中网站列表里所有 <li> 元素:
sel.xpath('//ul/li')
网站的描述:
sel.xpath('//ul/li/text()').extract()
网站的标题:
sel.xpath('//ul/li/a/text()').extract()
以及网站的链接:
sel.xpath('//ul/li/a/@href').extract()
之前提到过,每个 .xpath() 调用返回selector组成的list,因此我们可以拼接更多的 .xpath() 来进一步获取某个节点。我们将在下边使用这样的特性:
3.4.4 修改dmoz_spider.py中DmozSpider类的代码:
说明:
- 代码中的中文注释,首句添加# -*- coding: UTF-8 -*- 避免出现编码错误
- 若有写文件操作添加代码sys.setdefaultencoding('gbk'),设置编码格式
在项目的根目录输入命令(scrapy crawl dmoz)运行我们的爬虫,得到结果:
...省略
对比网站内容,我们发现网页顶层的Top和Python部分也被抓取出来,我们把这部分过滤掉。根据网页源代码发现,我们所要提取的目标信息是从 <ul class="directory-url"...开始的。再次修改代码:
sites = sel.xpath('//ul[@class="directory-url"]/li')
重新运行会发现此时已经将Top和Python部分过滤掉了。
3.5 使用Item提取,并保存至dmoz.json
3.5.1 使用Item
Item 对象是自定义的python字典。 您可以使用标准的字典语法来获取到其每个字段的值。(字段即是我们之前用Field赋值的属性):
保存信息的最简单的方法是通过Feed exports,主要有四种:JSON,JSON lines,CSV,XML。
我们将结果用最常用的JSON导出,命令如下:
scrapy crawl dmoz -o items.json -t json
-o 后面是导出文件名,-t 后面是导出类型。
scrapy crawl dmoz -o items.json -t json
-o 后面是导出文件名,-t 后面是导出类型。
运行结果:
查看items.json文件:
3.6 使用Pipeline输出结果
打开tutuorial/tutorial/pipelines.py文件,添加自定义JsonWithEncodingTutorialPipeline类代码:
打开tutuorial/tutorial/settings.py文件,在末尾追加部分代码:
我们可以发现,在根目录下多了一个dmoz.json文件,这就是我们利用pipeline管道自动生成的结果文件,可以查看其内容与上节的结果完全相同。
完整代码见:
GitHub代码链接(请猛戳~~~)