爬虫篇（6）爬虫解析工具：xpath、bs4、jsonPATH

最新推荐文章于 2024-05-01 23:18:21 发布

tzyyy1

最新推荐文章于 2024-05-01 23:18:21 发布

阅读量627

点赞数 1

分类专栏：爬虫文章标签：爬虫 xpath bs4 jsonpath

爬虫专栏收录该内容

13 篇文章 5 订阅

订阅专栏

一、xpath的使用

1、XML简介

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据

XML 和 HTML 的区别

数据格式	描述	设计目标
XML	Extensible Markup Language `（可扩展标记语言）`	被设计为传输和存储数据，其焦点是数据的内容。
HTML	HyperText Markup Language `（超文本标记语言）`	显示数据以及如何更好显示数据。

2、XML的节点关系

1. 父（Parent）

每个元素以及属性都有一个父。

2. 子（Children）

元素节点可有零个、一个或多个子。

3. 同胞（Sibling）

拥有相同的父的节点

4. 先辈（Ancestor）

某节点的父、父的父，等等。

5. 后代（Descendant）

某个节点的子，子的子，等等。

3、XPath使用

XPath 开发工具

开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
Chrome插件 XPath Helper

1、选取节点

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

下面列出了最常用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
.	选取当前节点的父节点。
@	选取属性。

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

	路径表达式	结果
div	选取 div元素的所有子节点。
/div	选取根元素 div。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
div/a	选取属于div的子元素的所有 a 元素。
//div	选取所有 div子元素
div//p	选择属于 div 元素的后代的所有div元素，而不管它们位于 p 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

2、谓语（条件过滤）

谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/ul/li[1]	选取属于ul 子元素的第一个 li 元素。
/ul/li[last()]	选取属于ul子元素的最后一个 li 元素。
/ul/li[last()-1]	选取属于ul子元素的倒数第二个li 元素。
/ul/li[position()❤️]	选取最前面的两个属于 ul 元素的子元素的li 元素。
//div[@attr]	选取所有拥有名为attr 的属性的 div 元素。
//div[@attr=’leng]	选取所有 div 元素，且这些元素拥有值为 leng 的 attr 属性。
/div/span[price>99.00]	选取div元素的所有 span 元素，且其中的 price 元素的值须大于 99.00。
/div/ul[price>99.00]/p	选取 div 元素中的ul元素的所有 p 元素，且其中的 price 元素的值须大于99.00。

3、选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/div/*	选取 div 元素的所有子元素。
//*	选取文档中的所有元素。
html/node()/a/@*	选择html下面任意节点下的a节点的所有属性
//div[@*]	选取所有带有属性的 div 元素。

4、选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

#获取div下面的span元素或者pp元素
/div/span/ | /div/pp

5、模糊匹配


[contains(@属性,值)]
#选取属性为attr，并且值为100的所有元素。
//li[contains(@attr,100)]

6、XPath 运算符

下面列出了可用在 XPath 表达式中的运算符：

运算符	描述	实例	返回值
\|	计算两个节点集	//book \| //cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。
and	与	price>9.00 and price<9.90	如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。
mod	计算除法的余数	5 mod 2	1

7、获取数据

1、获取文本数据

选中节点后要获取节点中的文本内容，使用text()方法

#获取span标签中的文本内容
/div/ul/li/span/text()

2、获取属性值

#获取a标签中的herf属性
/div//li/a/@herf

这些就是XPath的语法内容，在运用到Python抓取时要先转换为xml。**


from lxml import etree
html = etree.parse('baidu.html')
result = html.xpath('//div')
# 三、取属性 @
value1 = html.xpath('//a/@href')
value2 = html.xpath('//img/@src')
value3 = html.xpath('//div[2]/span/@id')

二、BeautifulSoup4

数据提取工具对比：

抓取工具	速度	使用难度	安装难度
正则	最快	困难	无（内置）
BeautifulSoup	慢	最简单	简单
xpath	快	简单	一般

首先必须要导入 bs4 库

# beautifulsoup4_test.py

from bs4 import BeautifulSoup

html = """
"""

#创建 Beautiful Soup 对象
soup = BeautifulSoup(html)

#打开本地 HTML 文件的方式来创建对象
#soup = BeautifulSoup(open('index.html'))

#格式化输出 soup 对象的内容
print soup.prettify()

一、四大对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

soup= BeautifulSoup(html,'lxml')

1. Tag（标签）

BeautifulSoup中所有的标签都是Tag类型，并且BeautifulSoup的对象其实本质上也是一个Tag类型。所以其实一些方法比如find、find_all并不是BeautifulSoup的，而是Tag的。

<head><title>The Dormouse's story</title></head>
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>

上面的 title head a p等等 HTML 标签加上里面包括的内容就是 Tag，那么试着使用 Beautiful Soup 来获取 Tags:

我们可以利用 soup 加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag。但是注意，它查找的是在所有内容中的第一个符合要求的标签。如果要查询所有的标签，后面会进行介绍。

对于 Tag，它有两个重要的属性，是 name 和 attrs

2.NavigableString

继承自python中的str，用起来就跟使用python的str是一样的。既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可，例如

print soup.p.string

3. BeautifulSoup

BeautifulSoup 对象表示的是一个文档的内容。大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性来感受一下

print type(soup.name)
# <type 'unicode'>

print soup.name 
# [document]

print soup.attrs # 文档本身的属性为空
# {}

4. Comment

Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号。

print soup.a
# <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>

print soup.a.string
# Elsie 

print type(soup.a.string)
# <class 'bs4.element.Comment'>

a 标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容时，注释符号已经去掉了。

二、遍历文档树

1、直接子节点：

content

tag 的 .content 属性可以将tag的子节点以列表的方式输出

soup.head.content

输出方式为列表，我们可以用列表索引来获取它的某一个元素

soup.head.contents[0]

children

它返回的不是一个 list，是一个迭代器对象不过我们可以通过遍历获取所有子节点。

soup.head.children

for child in  soup.body.children:
    print child

2、所有子孙节点:

.descendants 属性

.contents 和 .children 属性仅包含tag的直接子节点，.descendants 属性可以对所有tag的子孙节点进行递归循环，和 children类似，我们也需要遍历获取其中的内容。

for child in soup.descendants:
    print child

3、获取节点内容:

string：获取某个标签下的非标签字符串。返回来的是个字符串。如果这个标签下有多行字符，那么就不能获取到了。
strings：获取某个标签下的子孙非标签字符串。返回来的是个生成器。
stripped_strings：获取某个标签下的子孙非标签字符串，会去掉空白字符。返回来的是个生成器。
get_text：获取某个标签下的子孙非标签字符串。不是以列表的形式返回，是以普通字符串返回。

4、获取标签的属性：

通过下标获取：通过标签的下标的方式。
```
href = a['href']
```
通过attrs属性获取：示例代码：
```
href = a.attrs['href']
```

三、查找文档

1、find的使用：

返回第一个查找到的标签

2、find_all的使用：

find_all(name, attrs, recursive, text, **kwargs)

1）name 参数

name 参数可以查找所有名字为 name 的标签,字符串对象会被自动忽略掉

2）keyword 参数

soup.find_all(id='link2')
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

3）text 参数

通过 text 参数可以搜搜文档中的字符串内容，与 name 参数的可选值一样, text 参数接受字符串 , 正则表达式 , 列表

soup.find_all(text="Elsie")
# [u'Elsie']

在提取标签的时候，第一个参数是标签的名字。然后如果在提取标签的时候想要使用标签属性进行过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去。或者是使用attrs属性，将所有的属性以及对应的值放在一个字典中传给attrs属性。
有些时候，在提取标签的时候，不想提取那么多，那么可以使用limit参数。限制提取多少个。

find与find_all的区别：

find：找到第一个满足条件的标签就返回。说白了，就是只会返回一个元素。
find_all:将所有满足条件的标签都返回。说白了，会返回很多标签（以列表的形式）。

使用find和find_all的过滤条件：

关键字参数：将属性的名字作为关键字参数的名字，以及属性的值作为关键字参数的值进行过滤。
attrs参数：将属性条件放到一个字典中，传给attrs参数。

四、CSS选择器

这就是另一种与 find_all 方法有异曲同工之妙的查找方法.

写 CSS 时，标签名不加任何修饰，类名前加.，id名前加#
在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list

1）通过标签名查找

print soup.select('title') 
#[<title>The Dormouse's story</title>]

print soup.select('a')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print soup.select('b')
#[<b>The Dormouse's story</b>]

2）通过类名查找

print soup.select('.sister')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

3）通过 id 名查找

print soup.select('#link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

4）组合查找

组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开

print soup.select('p #link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

直接子标签查找，则使用 > 分隔

print soup.select("head > title")
#[<title>The Dormouse's story</title>]

5）属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。

print soup.select('a[class="sister"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print soup.select('a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print soup.select('p a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

6) 获取内容

以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

soup = BeautifulSoup(html, 'lxml')
print type(soup.select('title'))
print soup.select('title')[0].get_text()

for title in soup.select('title'):
    print title.get_text()

案例：使用BeautifuSoup4提取数据的爬虫

全国天气信息爬取：http://www.weather.com.cn/textFC/beijing.shtml

目标数据：地区名最低气温，最高气温

存入cvs表中

三、jsonPATH

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

json对象： {key:value}

json数组: [1,2,3,4]

1. json.loads()

把Json格式字符串解码转换成Python对象

2. json.dumps()

实现python类型转化为json字符串，返回一个str对象把一个Python对象编码转换成Json字符串

注意：json.dumps() 序列化时默认使用的ascii编码

添加参数 ensure_ascii=False 禁用ascii编码，按utf-8编码

2、JsonPath

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

pip install jsonpath

JsonPath与XPath语法对比：

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根节点
`.`	`@`	现行节点
`/`	`.`or`[]`	取子节点
`..`		取父节点，Jsonpath未支持
`//`	`..`	就是不管位置，选择所有符合条件的条件
`*`	`*`	匹配所有元素节点
`@		根据属性访问，Json不支持，因为Json是个Key-value递归结构，不需要。
`[]`	`[]`	迭代器标示（可以在里边做简单的迭代操作，如数组下标，根据内容选值等）
\|	`[,]`	支持迭代器中做多选。
`[]`	`?()`	支持过滤操作.
n/a	`()`	支持表达式计算
`()		分组，JsonPath不支持

案列示例：

我们以拉勾网城市JSON文件 http://www.lagou.com/lbs/getAllCitySearchLabels.json 为例，获取所有城市。

# jsonpath_lagou.py

import requests
import jsonpath
import json
import chardet

url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
response = requests.get(url)
json_data = response.text

# 把json格式字符串转换成python对象
jsonobj = json.loads(json_data)

# 从根节点开始，匹配name节点
citylist = jsonpath.jsonpath(jsonobj,'$..name')

print (citylist)
print (type(citylist))
fp = open('city.json','w')

content = json.dumps(citylist, ensure_ascii=False)
print (content)

fp.write(content.encode('utf-8'))
fp.close()