正则表达式

最新推荐文章于 2024-06-19 17:06:33 发布

一朝有悟，臻至化境

最新推荐文章于 2024-06-19 17:06:33 发布

阅读量163

点赞数

分类专栏：知识积累文章标签：数据分析

本文链接：https://blog.csdn.net/BIT_mk/article/details/131814962

版权

18 篇文章 1 订阅

订阅专栏

正则表达式（Regular Expression），简称正则或正则表达式，是一种用于描述字符串模式的工具。它是一种特定语法规则的文本字符串，用于匹配、搜索和操作符合特定模式的文本数据。

正则表达式由各种字符和特殊符号组成，这些字符和符号形成了一个模式，用于定义字符串的匹配规则。通过使用正则表达式，可以有效地进行文本的模式匹配、查找、替换、验证等操作。

正则表达式的一些常用元字符和特殊符号：

字符匹配：
- .：匹配除换行符以外的任意字符。
- \w：匹配任意字母、数字和下划线。
- \d：匹配任意数字。
- \s：匹配任意空白字符。
量词：
- *：匹配前面的元素零次或多次。
- +：匹配前面的元素一次或多次。
- ?：匹配前面的元素零次或一次。
- {n}：匹配前面的元素恰好出现 n 次。
- {n,}：匹配前面的元素至少出现 n 次。
- {n,m}：匹配前面的元素出现 n 到 m 次。
锚字符：
- ^：匹配字符串的开头。
- $：匹配字符串的结尾。
- \b：匹配单词的边界。
分组和捕获：
- ( )：用于创建分组。
- (?: )：用于创建非捕获分组。
特殊字符：
- \：用于转义特殊字符。
- []：用于定义字符类。
- |：用于表示或关系。
- ()：用于捕获和分组。

正则表达式可以非常灵活地描述字符串模式，并且支持复杂的匹配规则。通过使用正则表达式，可以在文本处理、数据清洗、模式匹配等方面发挥重要作用，提供强大的文本处理能力。在许多编程语言和工具中，都内置了对正则表达式的支持，例如 Python 的 re 模块和各种文本编辑器。

例子：

'([A-Za-z]+)\.'

([A-Za-z]+)：表示一个正则表达式子组，用于匹配由字母组成的连续字符串。
- [A-Za-z]：表示一个字符类，包含所有大写和小写字母的范围。
- +：表示匹配前面的字符类中的一个或多个字符，即连续的字母组成的单词。
\.：表示匹配一个点号（.）。在正则表达式中，点号是一个特殊字符，需要使用反斜杠进行转义。

综合起来，'([A-Za-z]+)\.' 的作用是匹配以字母组成的单词，并且该单词后面紧跟一个点号。在字符串中，该正则表达式模式可以用于提取称号（Title）。

例如，对于字符串 "Smith, John Mr."，该模式将匹配 "Mr." 这个称号部分。其中，"Mr" 是由字母组成的单词，并且后面跟着一个点号。

关注