九、正则表达式详解：掌握强大的文本处理工具（一）

小馒头学python

已于 2023-07-17 12:32:32 修改

阅读量239

点赞数 6

分类专栏：爬虫文章标签：正则表达式 python 爬虫

于 2023-07-17 11:36:11 首次发布

本文链接：https://blog.csdn.net/null18/article/details/131753623

版权

爬虫专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文介绍了正则表达式的基本概念，包括元字符、字符类和重复限定符等基本语法，以及匹配、选择和分组等操作符的用法。通过实例展示了如何在Python中使用正则表达式进行匹配和操作，如邮箱验证、URL提取等，强调了正则表达式在数据处理和文本分析中的重要性。

摘要由CSDN通过智能技术生成

🍀引言

正则表达式(Regular Expression)是一种强大的文本处理工具，常用于搜索、匹配和替换操作。它使用一种特定的语法来描述文本模式，并可应用于多种编程语言和文本编辑器中。本博客将详细介绍正则表达式的基本语法、常用操作符和实例应用，帮助你掌握这一强大工具。

其实大体来说就是使用表达式将符合条件的字符串进行提取
希望我们能从易到难，从语法到实践的思路去学习，把它攻下来

🍀正则表达式的基本语法

正则表达式由普通字符和特殊字符构成。常见的特殊字符包括元字符、字符类和重复限定符。以下是一些常用的特殊字符：

元字符：用于匹配特定的字符或字符集合，如==.(点)==匹配任意单个字符，\d匹配任意数字等。
字符类：用于匹配一组字符中的任意一个字符，如[abc]匹配字符’a’、‘b’或’c’。
重复限定符：用于指定匹配的次数，如*表示匹配零次或多次，+表示匹配一次或多次等。
基本语法的了解是学习正则表达式的第一步，它为后续的高级应用打下了基础。

🍀常用操作符

正则表达式中常用的操作符包括：

匹配操作符：^表示匹配字符串开头，$表示匹配字符串结尾。
选择操作符：|表示或操作，用于在多个模式之间选择一个。
分组操作符：()用于将一组模式组合为一个整体，并可对其进行操作，如获取匹配结果、进行重复操作等。

这些操作符的灵活运用，可以实现更复杂的字符串匹配和替换需求

🍀实例应用

正则表达式的应用非常广泛，以下是一些常见场景的实例应用：

邮箱验证：使用正则表达式来验证用户输入的邮箱是否符合规范，如是否包含@符号和顶级域名。
URL提取：从一段文本中提取出所有的URL链接，可以使用正则表达式匹配特定的URL模式。
数据清洗：处理文本中的特殊字符、空白符或不规范的格式，使用正则表达式进行替换或删除操作。
日志分析：通过正则表达式匹配特定的日志模式，提取出关键信息，如时间戳、错误代码等。

正则表达式在数据处理、文本搜索和日志分析等领域发挥着重要作用，掌握它将使你的工作更高效、准确。

🍀具体操作演示

匹配某个字符串：match（）

import re

text = 'Hello Word'
result = re.match('H', text)
print(result)

这样输出的结果是一个对象

在这里插入图片描述
只有使用group（）方法，才可以将其打印

print(result.group())

在这里插入图片描述
这时如果我们将表达式改一下，那么会打印出结果么

import re

text = 'Hello Word'
result = re.match('H0', text)
print(result.group())

显而易见会报错
在这里插入图片描述

注意：match（）是从起始位置进行匹配的

点（.）

下面进行一些例子演示

import re

text = '1Hello Word'
text1 = '_Hello Word'
text2= '\nHello Word'
result = re.match('.', text)
result1 = re.match('.', text1)
result2 = re.match('.', text2)
print(result.group())
print("*"*10)
print(result1.group())
print("*"*10)
print(result2.group())

运行结果如下
在这里插入图片描述
注意：无法匹配换行符、从起始位置开始匹配

\d匹配任意某个数字

import re

text = '1Hello Word'
text1 = 'Hello8 Word'
text2= 'Hello Word'
result = re.match('\d', text)
result1 = re.match('\d', text1)
result2 = re.match('\d', text2)
print(result.group())
print("*"*10)
print(result1.group())
print("*"*10)
print(result2.group())

运行结果如下
在这里插入图片描述
注意：只能匹配数字、从起始位置开始

\D：除数字外均可匹配

import re

text = '_Hello Word'
text1 = '8Hello Word'
result = re.match('\D', text)
result1 = re.match('\D', text1)
print(result.group())
print(result1.group())

运行结果如下

在这里插入图片描述
注意：除了数字以外的内容均可以匹配、从起始位置开始
\d和\D可以认为是互补的关系

\s（小写）：匹配空白字符

import re

text = '\nHello Word'
result = re.match('\s', text)
print(result.group(),len(result.group()))

运行结果如下

在这里插入图片描述
注意：匹配空白字符、从起始位置开始、\n、\t、\r、空格

\w（小写）：匹配小写的a-z，大写的A-Z，数字和下划线

import re

text = '\nHello Word'
text1 = 'Hello Word'
result = re.match('\w', text)
result1 = re.match('\w', text1)
print(result1.group())
print(result.group())

运行结果如下
在这里插入图片描述
注意：匹配小写的a-z，大写的A-Z，数字和下划线，从起始位置开始，除去上述的都无法匹配（如中文，中文符号等）

\W：匹配除小写\w之外的所有字符

import re

text = '#Hello Word'
text1 = 'Hello Word'
result = re.match('\W', text)
result1 = re.match('\W', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述

注意：匹配\w以后的所有字符
\w和\W可以认为是互补的

[ ]：->>组合的方式，只要在中括号内的内容均可匹配

import re

text = '#Hello Word'
text1 = 'Hello Word'
result = re.match('[#]', text)
result1 = re.match('[el]', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述
注意：[]内的内容都可以匹配、[]内多个匹配内容时，取“或”，只要匹配对象中年含有其中一个内容就匹配、从起始位置开始

下节继续！

请添加图片描述

挑战与创造都是很痛苦的，但是很充实。

小馒头学python

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
2
评论
九、正则表达式详解：掌握强大的文本处理工具（一）

是一种强大的文本处理工具，常用于搜索、匹配和替换操作。：[]内的内容都可以匹配、[]内多个匹配内容时，取“或”，只要匹配对象中年含有其中一个内容就匹配、从起始位置开始。：匹配小写的a-z，大写的A-Z，数字和下划线，从起始位置开始，除去上述的都无法匹配（如中文，中文符号等）正则表达式在数据处理、文本搜索和日志分析等领域发挥着重要作用，掌握它将使你的工作更高效、准确。这些操作符的灵活运用，可以实现更复杂的字符串匹配和替换需求。：匹配空白字符、从起始位置开始、\n、\t、\r、空格。
复制链接

扫一扫