揭秘Python re模块：文本自动化的核心秘籍

本文链接：https://blog.csdn.net/pythondh1/article/details/139027585

什么是正则表达式？

正则表达式（Regular Expressions），简称为"regex"或"regexp"，是用于从文本中查找和匹配字符串模式的一种强大工具。

想象一下，你是一位侦探，需要在一堆杂乱无章的线索中找到特定的信息。正则表达式就是你的工具，它帮助你定义一个模式，然后在这个模式的基础上去匹配、查找、替换或者分割文本。

在Python中，正则表达式通过re模块提供支持，它包含了一系列可以处理字符串的功能，如搜索、替换以及复杂的模式匹配。

基础概念：

1.正则表达式组成

正则表达式由一系列字符组成，这些字符定义了搜索模式。比如，\d可以匹配任意一个数字，而\w可以匹配任意一个字母、数字或下划线。

2.re模块的核心函数

re.search(pattern, string): 在字符串中搜索匹配正则表达式的第一个位置，返回一个match对象。
re.match(pattern, string): 从字符串的起始位置匹配正则表达式，也返回一个match对象。
re.findall(pattern, string): 找到字符串中所有匹配正则表达式的模式，并以列表形式返回。
re.sub(pattern, repl, string): 替换字符串中的匹配项，repl可以是字符串或函数。
re.compile(pattern): 编译正则表达式模式，返回一个模式对象，用于复用。

案例解析：使用re模块实现具体功能

案例一：验证电子邮箱格式

import re

# 定义电子邮箱的正则表达式
email_pattern = r"^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$"

# 验证的电子邮箱
email = "example@domain.com"

# 使用re.match检查是否匹配
if re.match(email_pattern, email):
    print("有效的电子邮箱地址")
else:
    print("无效的电子邮箱地址")

案例二：提取URL中的域名

import re

# 定义URL的正则表达式
url_pattern = r"https?://(?:www\.)?(\w+)(\.\w+)"

# 要提取的URL
url = "https://www.example.com"

# 使用re.search查找匹配
match = re.search(url_pattern, url)
if match:
    print("域名：", match.group(1) + match.group(2))
else:
    print("没有找到匹配")

案例三：替换字符串中的敏感词汇

import re

# 定义需要替换的敏感词汇的正则表达式
pattern = r"敏感词汇"

# 待处理的字符串
text = "这是一个包含敏感词汇的句子。"

# 使用re.sub进行替换
safe_text = re.sub(pattern, "替换词汇", text)
print(safe_text)

场景四：验证电话号码格式

电话号码格式在全球范围内多样化，但通常需要符合一定的数字组合规则。这里我们将展示如何使用Python的re模块来验证一个简单的国际电话号码格式（如：+123-456-7890）。

import re

# 定义电话号码的正则表达式
phone_pattern = r"^\+\d{3}-\d{3}-\d{4}$"

# 验证的电话号码
phone_number = "+123-456-7890"

# 使用re.match检查是否匹配
if re.match(phone_pattern, phone_number):
    print("电话号码格式正确")
else:
    print("电话号码格式不正确")

这个示例使用re.match()来检查电话号码是否符合预设的国际格式，提供了直接的反馈关于格式的正确性。

场景五：清洗文本中的HTML标签

在处理从网络抓取的数据时，经常需要从文本中去除HTML标签。使用正则表达式可以快速实现这一清洗过程。

import re

# 待清洗的带有HTML标签的文本
html_text = "<div>Hello, <b>world!</b> <br>Learn Python <i>regular expressions</i>.</div>"

# 定义删除HTML标签的正则表达式
clean_pattern = r"<.*?>"

# 使用re.sub移除HTML标签
clean_text = re.sub(clean_pattern, "", html_text)
print(clean_text)