2021-11-06大数据学习日志——数据埋点+网络爬虫——数据提取

数据提取

 

本章节主要会学习在爬虫中的如何去解析数据的方法,要学习的内容有:

  • 响应数据的分类
  • 结构化数据如何提取
  • 非结构化数据如何提取
  • 正则表达式的语法以及使用
  • jsonpath解析嵌套层次比较复杂的json数据
  • XPath语法
  • 在Python代码中借助lxml模块使用XPath语法提取非结构化数据

01_数据提取概述

知识点:

  • 了解 响应内容的分类
  • 了解 xml和html的区别
  • 了解 常用的数据解析方法

1.1 认识xml以及和html的区别

要搞清楚html和xml的区别,首先需要我们来认识xml

1.1.1 认识xml

xml是一种可扩展标记语言,样子和html很像,功能更专注于对数据的传输和存储

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title> 
  <author>Giada De Laurentiis</author> 
  <year>2005</year> 
  <price>30.00</price> 
</book>
<book category="CHILDREN">
  <title lang="en">Harry Potter</title> 
  <author>J K. Rowling</author> 
  <year>2005</year> 
  <price>29.99</price> 
</book>
<book category="WEB">
  <title lang="en">Learning XML</title> 
  <author>Erik T. Ray</author> 
  <year>2003</year> 
  <price>39.95</price> 
</book>
</bookstore>

上面的xml内容可以表示为下面的树结构:

1.1.2 xml和html的区别

二者区别如下图

数据格式 描述 设计目标
XML Extensible Markup Language(可扩展标记语言) 被设计为传输和存储数据,其焦点是数据的内容
HTML HyperText Markup Language(超文本标记语言) 显示数据以及更好的显示数据
  • html:
    • 超文本标记语言
    • 为了更好的显示数据,侧重点是为了显示
  • xml:
    • 可扩展标记语言
    • 为了传输和存储数据,侧重点是在于数据内容本身

1.2 响应内容的分类

在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据

结构化的响应内容

  • json字符串

    • 可以使用json、jsonpath等模块来提取特定数据

    • json字符串的例子如下图

    • xml字符串

      • 可以使用re、lxml等模块来提取特定数据

      • xml字符串的例子如下

        <bookstore>
        <book category="COOKING">
          <title lang="en">Everyday Italian</title> 
          <author>Giada De Laurentiis</author> 
          <year>2005</year> 
          <price>30.00</price> 
        </book>
        <book category="CHILDREN">
          <title lang="en">Harry Potter</title> 
          <author>J K. Rowling</author> 
          <year>2005</year> 
          <price>29.99</price> 
        </book>
        <book category="WEB">
          <title lang="en">Learning XML</title> 
          <author>Erik T. Ray</author> 
          <year>2003</year> 
          <price>39.95</price> 
        </book>
        </bookstore>
    • html字符串

      • 可以使用re、lxml等模块来提取特定数据

      • html字符串的例子如下图

    • 非结构化的响应内容

    •  

1.3 常用数据解析方法 

02_正则表达式

知识点:

  • 了解 什么是正则表达式
  • 掌握 正则表达式的使用
  • 掌握 在Python中使用正则表达式

2.1 正则表达式介绍

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

模式:一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。

正则表达式的功能:

  • 数据验证(表单验证、如手机、邮箱、IP地址)

  • 数据检索(数据检索、数据抓取)

  • 数据隐藏(135****6235 王先生)

  • 数据过滤(论坛敏感关键词过滤)

正则表达式并不是Python所特有的,在Java、PHP、Go以及JavaScript等语言中都是支持正则表达式的。

2.2 正则表达式语法

以下正则表达式练习可以先使用在线正则表达式测试工具进行练习:在线正则表达式测试

2.2.1 匹配单个字符

正则语法 描述
. 匹配任意1个字符(除了\n)
[] 匹配[ ]中列举的字符
\d 匹配数字,即0-9
\D 匹配非数字,即不是数字
\s 匹配空白,即 空格,tab键
\S 匹配非空白
\w 匹配非特殊字符,即a-z、A-Z、0-9、_、汉字
\W 匹配特殊字符,即非字母、非数字、非汉字

练习:

  • 在字符串 "abcd123" 中匹配 a : a
  • 在字符串 "abcd123" 中匹配任意一个字符: .
  • 在字符串 "abcd123" 中匹配 b 和 d :[b, d]
  • 在字符串 "abcd123" 中匹配数字: \d
  • 在字符串 "abcd123" 中匹配非数字内容: \D
  • 在字符串 "abcd 123" 中匹配空白字符串: \s
  • 在字符串 "abcd 123" 中匹配非空白字符串: \S
  • 在字符串 "abcd_123" 中匹配非特殊字符: \w
  • 在字符串 "abcd&%123" 中匹配特殊字符: \W

2.2.2 匹配多个字符

正则语法 描述
* 匹配前一个字符出现0次或者无限次,即可有可无
+ 匹配前一个字符出现1次或者无限次,即至少有1次
? 匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m} 匹配前一个字符出现m次
{m,n} 匹配前一个字符出现从m到n次

练习:

  • 在字符串 "传智播客_python_666" 中匹配非数字内容: \D* 返回: 传智播客_python_
  • 在字符串 "传智播客_python_666" 中匹配数字: \d+ 返回: 666
  • 在字符串 "传智播客_python_666" 中匹配y或py: [p]?y 返回: py
  • 在字符串 "传智播客_python_666" 中匹配2个数字: \d{2} 返回: 66
  • 在字符串 "传智播客_python_666" 中匹配英文字母出现1-3次: [a-z]{1,3} 返回:pyt hon

2.2.3 匹配开头和结尾

正则语法 描述
^ 匹配字符串开头
$ 匹配字符串结尾

练习:

  • 在字符串 "abc_python_666" 中匹配以a开头: ^a 返回: a
  • 在字符串 "abc_python_666" 中匹配以数字结尾:\d$ 返回: 6

2.2.4 其他匹配

正则语法 描述
[^指定字符] 匹配除了指定字符以外的所有字符
| 匹配左右任意一个表达式

练习:

  • 在字符串 "abc_python_666" 中匹配除了数字以外的字符: [^\d]+ 返回: abc_python_
  • 在字符串 "abc-python-666" 中匹配数字和特殊字符:\d+|\W+ 返回:- - 666

2.3 re模块

在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个re模块,re模块是Python中内置模块,不需要我们去安装,直接导入使用即可,导入方式:

import re

2.3.1 re.match()

函数语法格式:

re.match(pattern, string, flags=0)

函数功能说明:尝试从字符串起始位置匹配一个正则表达式

  • 如果不能从起始位置匹配成功,则返回None;
  • 如果能从起始位置匹配成功,则返回一个匹配的对象

函数参数说明:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等, 正则表达式修饰符-可选标志

我们可以使用匹配对象的 group() 方法来获取匹配的子串内容:

匹配对象方法 描述
group() 返回正则表达式匹配的子串内容

示例代码:

my_str = "abc_123_DFG_456"

# 匹配字符串bc(注:从头开始)
re_obj = re.match(r'bc', my_str)
print(re_obj) # 结果:匹配不成功,返回None

# 匹配字符串abc(注:从头开始)
re_obj = re.match(r'abc', my_str)
print(re_obj) # 结果:匹配成功,返回一个匹配对象

# 获取正则表达式匹配的子串内容
print(re_obj.group())

上述代码运行结果:

None
<re.Match object; span=(0, 3), match='abc'>
abc

2.3.2 re.search()

函数语法格式:

re.search(pattern, string, flags=0)

函数功能说明:根据正则表达式扫描整个字符串,并返回第一个成功的匹配

  • 如果不能匹配成功,则返回None;
  • 如果能匹配成功,则返回一个匹配对象

函数参数说明:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等

示例代码:

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值