Python 数据获取（二）—— 数据解析与正则表达式

Hehuyi_In

已于 2022-12-03 22:58:42 修改

阅读量3.4k

点赞数 4

分类专栏： Python 文章标签：正则表达式 python 爬虫

于 2022-06-12 00:29:19 首次发布

本文链接：https://blog.csdn.net/Hehuyi_In/article/details/125240600

版权

Python 专栏收录该内容

26 篇文章

订阅专栏

一、数据解析常用方法

正则表达式：代码可能比较复杂、正则比较难上手，效率较高、准确性高
BeautifulSoup（bs4）：代码简单，但效率一般
xpath解析

这几种方法可以混着用，看哪种简单，本节我们先学习正则表达式。

二、正则表达式规则

有一个在线正则表达式测试小工具，可以用来学习

https://tool.oschina.net/regex#

1. 常用元字符与量词

2. 贪婪匹配与惰性匹配（重点）

贪婪匹配：中间尽量多匹配，到最后一个符合的才停下。其实按照之前的理解：.匹配任意字符（除换行符），*重复0或多次，因此基本上中间的所有内容都会匹配到，所以它叫贪婪。

原理是这样的：

.* 往后找到最后一个“游戏”：玩儿吃鸡游戏，晚上一起玩游戏，干嘛呢？打游戏
---------------------------------------------------------->

惰性匹配：只匹配第一次符合的，然后就停下。.*跟贪婪匹配一样，但?表示重复0或1次，也就是说如果有多次出现，最多匹配到一个就停下了，所以它叫惰性。

原理是这样的：

.* 往后找到最后一个“游戏”：玩儿吃鸡游戏，晚上一起玩游戏，干嘛呢？打游戏
---------------------------------------------------------->

? 再往前找，找到第一个游戏：玩儿吃鸡游戏
<-------------------------------------------

3. 小案例

有这样一个html

想匹配的效果是：

可以看到，有底色的两部分需要替换。所以我的正则表达式应该对应有两部分惰性匹配：

4. 惰性匹配用作分隔符

例如随便一串字符 xxxxxxxxxxbaaaaaabcccccccb

如果我们匹配：.*?b 就表示前面是什么都可以，结尾要是b，相当于就把上面的字符分成列3段

三、 python re模块

1. 函数格式

re.函数名(r’正则表达式’,’my_strings’,flag) flag暂时可以不填，后面会用到。比较常用的是re.S，表示.也可以匹配换行符。

2. 几个重点函数

① findall：匹配字符串中所有符合正则的内容，返回一个列表。

小知识：

r”\d+”那个r表示raw，反转义字符串，建议加，不然会有warning
快速注释/取消注释多行，光标选中，按ctrl + /

② finditer：功能同上，返回迭代器，需要用循环调用.group() 从中取值。迭代器效率更高，也是这里面最常用的一个功能。

③ search：匹配到第一个符合正则的内容就返回。返回一个match对象，需要用.group()从中取值。不用循环，因为只匹配到第一个值就返回。

④ match：匹配以xxx开头，相当于它默认加了^。返回一个match对象，需要用.group()从中取值。不用循环，因为一个字符串只有一个开头。

import re

str = "小明的电话是 10086，小红的电话是 10010"

# findall：匹配字符串中所有符合正则的内容，返回一个列表
# list = re.findall(r'\d+',str)
# print(list)  # 返回结果 ['10086', '10010']

# finditer：功能同上，返回迭代器，需要用循环调用.group()从中取值
# 迭代器效率更高，也是这里面最常用的一个功能
# it = re.finditer(r'\d+',str)
# for i in it:
#     print(i.group())  # 返回结果 10086 和 10010

# search：匹配到第一个符合正则的内容就返回
# 返回一个match对象，需要用.group()从中取值。不用循环，因为只匹配到第一个值就返回。
# s = re.search(r'\d+',str)
# print(s)    # 返回结果 <_sre.SRE_Match object; span=(7, 12), match='10086'>
# print(type(s))      # 返回结果 <class '_sre.SRE_Match'>
# print(s.group())  # 返回结果 10086

# match：匹配以xxx开头，相当于它默认加了^。
# 返回一个match对象，需要用.group()从中取值。不用循环，因为一个字符串只有一个开头。
# str2 = "10086 是小明的电话，10010 是小红的电话"
# s = re.match(r'\d+',str2)
# print(s.group())  # 返回结果 10086

3. 预加载正则表达式

预加载正则表达式相当于先编译好保存起来了，在正则特别复杂时，可以提高一点效率。

re.compile(r'正则表达式')

import re

str = "小明的电话是 10086，小红的电话是 10010"
obj = re.compile(r'\d+')
it = obj.finditer(str)
for i in it:
    print(i.group()) # 返回结果同finditer

四、综合运用

我想取出这段html中的id和中文名，拼音不需要

类似前面的例子，将要匹配的部分写成惰性匹配。如果要赋值给变量（Django课程也有提到过），python中的用法是 (?P<变量名>.*?)

对应的正则表达式写法很简单：

注意re.compile中的第二个参数re.S是一个标记位（上面提到的其他函数也有），用途是使.也能匹配换行符。

首先照抄一行

把所有有变化的值改成惰性匹配.*?

r”<div class='.*?'><span id=.*?>.*?</span></div>”

要取出的值赋给变量

r”<div class='.*?'><span id=(?P<id>.*?)>(?P<name>.*?)</span></div>”

如果用finditer的话，取值的时候应该写 group("id"),group("name")

代码如下：

import re

s = '''
<div class='xiaoming'><span id=1>小明</span></div>
<div class='xiaohong'><span id=2>小红</span></div>
<div class='zhangsan'><span id=3>张三</span></div>
<div class='wangwu'><span id=4>王五</span></div>
'''

obj = re.compile(r"<div class='.*?'><span id=(?P<id>.*?)>(?P<name>.*?)<",re.S)
it = obj.finditer(s)
for i in it:
    print(i.group("id") + '----' + i.group("name"))