数据提取
本章节主要会学习在爬虫中的如何去解析数据的方法,要学习的内容有:
- 响应数据的分类
- 结构化数据如何提取
- 非结构化数据如何提取
- 正则表达式的语法以及使用
- jsonpath解析嵌套层次比较复杂的json数据
- XPath语法
- 在Python代码中借助lxml模块使用XPath语法提取非结构化数据
01_数据提取概述
知识点:
- 了解 响应内容的分类
- 了解 xml和html的区别
- 了解 常用的数据解析方法
1.1 认识xml以及和html的区别
要搞清楚html和xml的区别,首先需要我们来认识xml
1.1.1 认识xml
xml是一种可扩展标记语言,样子和html很像,功能更专注于对数据的传输和存储
<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
上面的xml内容可以表示为下面的树结构:
1.1.2 xml和html的区别
二者区别如下图
数据格式 | 描述 | 设计目标 |
---|---|---|
XML | Extensible Markup Language(可扩展标记语言) | 被设计为传输和存储数据,其焦点是数据的内容 |
HTML | HyperText Markup Language(超文本标记语言) | 显示数据以及更好的显示数据 |
- html:
- 超文本标记语言
- 为了更好的显示数据,侧重点是为了显示
- xml:
- 可扩展标记语言
- 为了传输和存储数据,侧重点是在于数据内容本身
1.2 响应内容的分类
在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据
结构化的响应内容
-
json字符串
-
可以使用json、jsonpath等模块来提取特定数据
-
json字符串的例子如下图
-
xml字符串
-
可以使用re、lxml等模块来提取特定数据
-
xml字符串的例子如下
<bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price> </book> </bookstore>
-
-
html字符串
-
可以使用re、lxml等模块来提取特定数据
-
html字符串的例子如下图
-
-
非结构化的响应内容
-
1.3 常用数据解析方法
02_正则表达式
知识点:
- 了解 什么是正则表达式
- 掌握 正则表达式的使用
- 掌握 在Python中使用正则表达式
2.1 正则表达式介绍
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
模式:一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。
正则表达式的功能:
-
数据验证(表单验证、如手机、邮箱、IP地址)
-
数据检索(数据检索、数据抓取)
-
数据隐藏(
135****6235
王先生) -
数据过滤(论坛敏感关键词过滤)
正则表达式并不是Python所特有的,在Java、PHP、Go以及JavaScript等语言中都是支持正则表达式的。
2.2 正则表达式语法
以下正则表达式练习可以先使用在线正则表达式测试工具进行练习:在线正则表达式测试
2.2.1 匹配单个字符
正则语法 | 描述 |
---|---|
. | 匹配任意1个字符(除了\n) |
[] | 匹配[ ]中列举的字符 |
\d | 匹配数字,即0-9 |
\D | 匹配非数字,即不是数字 |
\s | 匹配空白,即 空格,tab键 |
\S | 匹配非空白 |
\w | 匹配非特殊字符,即a-z、A-Z、0-9、_、汉字 |
\W | 匹配特殊字符,即非字母、非数字、非汉字 |
练习:
- 在字符串 "abcd123" 中匹配 a :
a
- 在字符串 "abcd123" 中匹配任意一个字符:
.
- 在字符串 "abcd123" 中匹配 b 和 d :
[b, d]
- 在字符串 "abcd123" 中匹配数字:
\d
- 在字符串 "abcd123" 中匹配非数字内容:
\D
- 在字符串 "abcd 123" 中匹配空白字符串:
\s
- 在字符串 "abcd 123" 中匹配非空白字符串:
\S
- 在字符串 "abcd_123" 中匹配非特殊字符:
\w
- 在字符串 "abcd&%123" 中匹配特殊字符:
\W
2.2.2 匹配多个字符
正则语法 | 描述 |
---|---|
* | 匹配前一个字符出现0次或者无限次,即可有可无 |
+ | 匹配前一个字符出现1次或者无限次,即至少有1次 |
? | 匹配前一个字符出现1次或者0次,即要么有1次,要么没有 |
{m} | 匹配前一个字符出现m次 |
{m,n} | 匹配前一个字符出现从m到n次 |
练习:
- 在字符串 "传智播客_python_666" 中匹配非数字内容:
\D*
返回:传智播客_python_
- 在字符串 "传智播客_python_666" 中匹配数字:
\d+
返回:666
- 在字符串 "传智播客_python_666" 中匹配y或py:
[p]?y
返回:py
- 在字符串 "传智播客_python_666" 中匹配2个数字:
\d{2}
返回:66
- 在字符串 "传智播客_python_666" 中匹配英文字母出现1-3次:
[a-z]{1,3}
返回:pyt
hon
2.2.3 匹配开头和结尾
正则语法 | 描述 |
---|---|
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
练习:
- 在字符串 "abc_python_666" 中匹配以a开头:
^a
返回:a
- 在字符串 "abc_python_666" 中匹配以数字结尾:
\d$
返回:6
2.2.4 其他匹配
正则语法 | 描述 |
---|---|
[^指定字符] | 匹配除了指定字符以外的所有字符 |
| | 匹配左右任意一个表达式 |
练习:
- 在字符串 "abc_python_666" 中匹配除了数字以外的字符:
[^\d]+
返回:abc_python_
- 在字符串 "abc-python-666" 中匹配数字和特殊字符:
\d+|\W+
返回:-
-
666
2.3 re模块
在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个re模块,re模块是Python中内置模块,不需要我们去安装,直接导入使用即可,导入方式:
import re
2.3.1 re.match()
函数语法格式:
re.match(pattern, string, flags=0)
函数功能说明:尝试从字符串起始位置匹配一个正则表达式
- 如果不能从起始位置匹配成功,则返回None;
- 如果能从起始位置匹配成功,则返回一个匹配的对象
函数参数说明:
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等, 正则表达式修饰符-可选标志 |
我们可以使用匹配对象的 group() 方法来获取匹配的子串内容:
匹配对象方法 | 描述 |
---|---|
group() | 返回正则表达式匹配的子串内容 |
示例代码:
my_str = "abc_123_DFG_456"
# 匹配字符串bc(注:从头开始)
re_obj = re.match(r'bc', my_str)
print(re_obj) # 结果:匹配不成功,返回None
# 匹配字符串abc(注:从头开始)
re_obj = re.match(r'abc', my_str)
print(re_obj) # 结果:匹配成功,返回一个匹配对象
# 获取正则表达式匹配的子串内容
print(re_obj.group())
上述代码运行结果:
None
<re.Match object; span=(0, 3), match='abc'>
abc
2.3.2 re.search()
函数语法格式:
re.search(pattern, string, flags=0)
函数功能说明:根据正则表达式扫描整个字符串,并返回第一个成功的匹配
- 如果不能匹配成功,则返回None;
- 如果能匹配成功,则返回一个匹配对象
函数参数说明:
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等 |
示例代码: