【学习笔记】爬虫（Ⅱ）—— 正则表达式 Re

最新推荐文章于 2024-11-08 22:26:51 发布

贺一航【Niki】

最新推荐文章于 2024-11-08 22:26:51 发布

阅读量697

点赞数 25

文章标签：学习笔记爬虫正则表达式

本文链接：https://blog.csdn.net/eddie_hyh/article/details/138017285

版权

本文是关于Python正则表达式Re的详细学习笔记，涵盖正则表达式的基本概念、应用场景，以及基础篇和进阶篇的知识点，包括模式、标志、方法、MatchObject属性，和转义、分组、或操作等进阶内容。

摘要由CSDN通过智能技术生成

正则表达式

1、概述
- 1.1、什么是正则表达式
- 1.2、正则表达式的应用场景
2、基础篇
- 2.1、模式
- 2.2、标志
- 2.3、方法
- 2.4、MatchObject的属性
3、进阶篇
- 3.1、转义 \
- 3.2、分组（）
- 3.3、或 |
4、声明

1、概述

1.1、什么是正则表达式

正则表达式（Regular Expression），通常缩写为"re"，是一种用来描述字符串模式的工具。它是一种强大的文本处理工具，用来匹配、搜索或替换字符串中的特定模式。正则表达式在文本处理、数据提取、数据验证、语言处理等领域被广泛应用

1.2、正则表达式的应用场景

        ① 文本搜索与匹配：可以使用正则表达式在文本中搜索指定的模式，如查找包含特定单词、字符或格式的文本
        ② 数据提取与处理：可以从文本中提取出符合特定模式的数据，比如从网页中提取出所有的邮箱地址或电话号码
        ③ 数据验证与过滤：可以用来验证用户输入的数据是否符合特定的格式要求，比如验证邮箱地址、电话号码或密码的复杂度
        ④ 文本替换与编辑：可以用来替换文本中的特定模式，比如将所有的空格替换成换行符
        ⑤ 语言处理与分析：在自然语言处理中，正则表达式可以用来识别词性、提取关键词、进行句法分析等

2、基础篇

2.1、模式

定界符（1）	描述
^	匹配字符串的开头
$	匹配字符串的结尾

import re

pattern = r'^123$'	# 只有123本人才能匹配成功

strings = ['123', 'abc123', '123abc', '1234']  # 测试字符串

for string in strings:
    match = re.match(pattern, string)  # 返回一个bool值，表示匹配成功与否
    if match:
        print(f"String '{
     string}' 匹配成功")
    else:
        print(f"String '{
     string}' 匹配失败")

String '123' 匹配成功
String 'abc123' 匹配失败
String '123abc' 匹配失败
String '1234' 匹配失败

Tip：以 ^ 和 $ 作为收尾的模式串，意味着匹配的字符串必须从头到尾完全符合指定的模式，若模式串仅仅是字符串的的子串（字符串长度>模式串），那将匹配不成功

定界符（2）	描述
\A	匹配字符串的开头，类似于 ^，但不受多行模式的影响
\Z	匹配字符串的结尾，类似于 $，但不受多行模式的影响

import re

# 使用 ^ 匹配字符串的开头（受多行模式影响）
pattern1_1 = r'^\d+'
string1_1 = '123\n456'
matches1_1 = re.findall(pattern1_1, string1_1)  # 不开启多行模式
print("Using ^ in without mode:")
print(matches1_1)

pattern1_2 = r'^\d+'
string1_2 = '123\n456'
matches1_2 = re.findall(pattern1_2, string1_2, flags=re.MULTILINE)  # 开启多行模式
print("Using ^ in multiline mode:")
print(matches1_2)

# 使用 \A 匹配字符串的开头（不受多行模式影响）
pattern2_1 = r'\A\d+'
string2_1 = '123\n456'
matches2_1 = re.findall(pattern2_1, string2_1)
print("\nUsing \\A without multiline mode:")  # 不开启多行模式
print(matches2_1)

pattern2_2 = r'\A\d+'
string2_2 = '123\n456'
matches2_2 = re.findall(pattern2_2, string2_2, flags=re.MULTILINE)  # 开启多行模式
print("\nUsing \\A without multiline mode:")
print(matches2_2)

Using ^ in without mode:
['123']
Using ^ in multiline mode:
['123', '456']

Using \A without multiline mode:
['123']

Using \A without multiline mode:
['123']

Tip：上例是以 ^ 和 \A 为例，$ 和 \G 的关系同理，可见对于 ^ 来说，如果以多行模式对一个含有换行符的字符串进行匹配，那么 ^ 会对每一行的起始做检查；而对于\A来说，只会对字符串最起始的位置做检查，无论字符串是否包含有换行符或是是否以多行模式进行匹配；因此， ^ 匹配到的结果可能有多个，\A 匹配到的结果最多只能有一个

定界符（3）	描述
\b	匹配单词边界，也就是空白、特殊符号之后的单词开头 / 连着空白、特殊符号的单词结尾
\B	与 \b 相反

import re

# 使用 \b 匹配单词边界
pattern1 = r'hat\b'
string1 = "that's my favorite hat "  # 匹配到that的hat（因为后面有特殊符号'）和hat（因为后面有空格）
matches1 = re.findall(pattern1, string1)
print("Using \\b:")
print(matches1)

# 使用 \B 匹配非单词边界
pattern2 = r'\Bhat'
string2 = "that's my favorite hat."  # 匹配到that的hat（因为其前面是个单词，非空白非特殊符号）
matches2 = re.findall(pattern2, string2)
print("\nUsing \\B:")
print(matches2)

Using \b:
['hat', 'hat']

Using \B:
['hat']

代词	描述
.	任意字符
\w	匹配数字、字母、下划线，等价于[a-zA-Z0-9_]
\W	与 \w 相反
\s	匹配空白字符，例如制表符、空格符、换行符，等价于[\t\n\r\f]
\S	与 \s 相反
\d	匹配数字，等价于[0-9]
\D	与 \d 相反

import re

pattern = r'^\w\s\d$'  # 第一个字符需要是数字/字符/下划线，第二个字符是空白字符，第三个字符是数字才能匹配成功

strings = ['2 3', 's\t5', 'a66', 'r\n6', 'k u']  # 测试字符串

for string in strings:
    match = re.match(pattern, string)  # 返回一个bool值，表示匹配成功与否
    if match:
        print(f"String '{
     string}' 匹配成功")
    else:
        print(