一文带你精通正则表达式：从入门到实战

最新推荐文章于 2025-03-24 20:39:37 发布

码上飞扬

最新推荐文章于 2025-03-24 20:39:37 发布

阅读量2.2k

点赞数 59

文章标签：正则表达式 regex

本文链接：https://blog.csdn.net/weixin_42132035/article/details/145619763

版权

友情提示：本文内容全部由银河易创（https://ai.eaigx.com）AI创作平台生成，仅供参考。请根据具体情况和需求进行适当的调整和验证。

正则表达式（Regular Expression，简称Regex）是一种强大的文本处理工具，广泛应用于各种编程语言和文本编辑器中。无论是数据清洗、日志分析，还是表单验证，正则表达式都能大大提高我们的工作效率。本文将带你从基础概念到高级用法，全面掌握正则表达式的精髓。

1. 正则表达式基础

1.1 什么是正则表达式？

正则表达式是一种用于匹配字符串的模式。它由普通字符（如字母、数字）和特殊字符（称为元字符）组成，通过定义这些模式，我们可以快速查找、替换或提取文本中的特定内容。

1.2 基本语法

普通字符：如 a、1、@ 等，直接匹配自身。
元字符：具有特殊含义的字符，如 .、*、+、? 等。

1.3 常用元字符

.：匹配任意单个字符（除了换行符）。
*：匹配前面的字符零次或多次。
+：匹配前面的字符一次或多次。
?：匹配前面的字符零次或一次。
^：匹配字符串的开头。
$：匹配字符串的结尾。
[]：匹配括号内的任意一个字符。
()：分组，用于捕获匹配的内容。

1.4 示例

a.b：匹配 a 和 b 之间有一个任意字符的字符串，如 aab、acb。
a*：匹配零个或多个 a，如 ""、a、aa。
a+：匹配一个或多个 a，如 a、aa。
a?：匹配零个或一个 a，如 ""、a。
^a：匹配以 a 开头的字符串。
a$：匹配以 a 结尾的字符串。
[abc]：匹配 a、b 或 c。
(abc)：匹配 abc 并将其捕获为一个组。

2. 正则表达式进阶

2.1 量词

{n}：匹配前面的字符恰好 n 次。
{n,}：匹配前面的字符至少 n 次。
{n,m}：匹配前面的字符至少 n 次，至多 m 次。

2.2 字符类

\d：匹配任意数字，等价于 [0-9]。
\D：匹配任意非数字字符。
\w：匹配任意字母、数字或下划线，等价于 [a-zA-Z0-9_]。
\W：匹配任意非字母、数字或下划线的字符。
\s：匹配任意空白字符（包括空格、制表符、换行符等）。
\S：匹配任意非空白字符。

2.3 边界匹配

\b：匹配单词边界。
\B：匹配非单词边界。

2.4 分组与捕获

(pattern)：捕获匹配的内容，可以通过 \1、\2 等引用。
(?:pattern)：非捕获分组，匹配但不捕获。

2.5 贪婪与懒惰

默认情况下，量词是贪婪的，会尽可能多地匹配字符。
在量词后加上 ? 可以使其变为懒惰模式，尽可能少地匹配字符。

2.6 示例

a{2}：匹配 aa。
a{2,}：匹配至少两个 a，如 aa、aaa。
a{2,4}：匹配两到四个 a，如 aa、aaa、aaaa。
\d{3}：匹配三个数字，如 123。
\w+：匹配一个或多个字母、数字或下划线，如 abc、123。
\bword\b：匹配单词 word。
(abc)\1：匹配 abcabc。
a+?：懒惰模式，匹配 a 时尽可能少，如 a。

3. 正则表达式实战

3.1 匹配邮箱地址

邮箱地址的格式通常为 username@domain.com，我们可以用以下正则表达式来匹配：

^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

解释：

^：匹配字符串的开头。
[a-zA-Z0-9._%+-]+：匹配用户名部分，允许字母、数字、点 .、下划线 _、百分号 %、加号 + 和减号 -。
@：匹配邮箱地址中的 @ 符号。
[a-zA-Z0-9.-]+：匹配域名部分，允许字母、数字、点 . 和减号 -。
\.：匹配域名中的点 .。
[a-zA-Z]{2,}：匹配顶级域名（如 com、org），至少两个字母。
$：匹配字符串的结尾。

示例：

匹配：example@domain.com、user.name+tag@sub.domain.org
不匹配：user@.com、user@domain、user@domain.c

3.2 匹配 URL

URL 的格式通常为 https://www.example.com/path，我们可以用以下正则表达式来匹配：

^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$

解释：

^：匹配字符串的开头。
(https?:\/\/)?：匹配 http:// 或 https://，? 表示这部分是可选的。
([\da-z\.-]+)：匹配域名部分，允许数字、字母、点 . 和减号 -。
\.([a-z\.]{2,6})：匹配顶级域名（如 com、org），长度为 2 到 6 个字母。
([\/\w \.-]*)*：匹配路径部分，允许字母、数字、下划线 _、点 .、减号 - 和斜杠 /。
\/?：匹配可选的结尾斜杠 /。
$：匹配字符串的结尾。

示例：

匹配：https://www.example.com、http://sub.domain.org/path/to/page
不匹配：www.example、ftp://domain.com

3.3 匹配日期（YYYY-MM-DD）

日期的格式通常为 YYYY-MM-DD，我们可以用以下正则表达式来匹配：

^\d{4}-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])$

解释：

^：匹配字符串的开头。
\d{4}：匹配四位数的年份（如 2023）。
-：匹配日期中的连字符 -。
(0[1-9]|1[0-2])：匹配月份，01 到 12。
-：匹配日期中的连字符 -。
(0[1-9]|[12]\d|3[01])：匹配日期，01 到 31。
$：匹配字符串的结尾。

示例：

匹配：2023-10-05、1999-12-31
不匹配：2023-13-01、2023-02-30

3.4 提取 HTML 标签中的内容

假设我们想提取 HTML 标签中的文本内容，可以使用以下正则表达式：

<([a-z]+)>([^<]+)<\/\1>

解释：

<([a-z]+)>：匹配开始标签，如 <p>、<div>。
([^<]+)：匹配标签中的内容，[^<] 表示除 < 之外的任意字符。
<\/\1>：匹配结束标签，\1 表示引用第一个捕获组（即标签名）。

示例：

输入：<p>Hello, World!</p>
匹配：<p>Hello, World!</p>，捕获内容为 Hello, World!

3.5 替换字符串中的空格

如果我们想将字符串中的空格替换为其他字符（如下划线 _），可以使用正则表达式结合替换功能来实现。正则表达式：

\s+

解释：

\s：匹配任意空白字符（包括空格、制表符、换行符等）。
+：匹配一个或多个空白字符。

替换为：

示例：

输入：Hello World!
替换后：Hello_World!

3.6 提取手机号码

手机号码的格式通常为 11 位数字，我们可以用以下正则表达式来匹配：

^1[3-9]\d{9}$

解释：

^：匹配字符串的开头。
1：匹配手机号码的第一位数字 1。
[3-9]：匹配第二位数字，范围为 3 到 9。
\d{9}：匹配后面的 9 位数字。
$：匹配字符串的结尾。

示例：

匹配：13812345678、19987654321
不匹配：12345678901、1381234567

3.7 匹配 IP 地址

IP 地址的格式通常为 192.168.1.1，我们可以用以下正则表达式来匹配：

^((25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)\.){3}(25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)$

解释：

^：匹配字符串的开头。
(25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)：匹配 0 到 255 之间的数字。
- 25[0-5]：匹配 250 到 255。
- 2[0-4]\d：匹配 200 到 249。
- 1\d{2}：匹配 100 到 199。
- [1-9]?\d：匹配 0 到 99。
\.：匹配点 .。
{3}：重复前面的模式 3 次。
$：匹配字符串的结尾。

示例：

匹配：192.168.1.1、10.0.0.1
不匹配：256.1.1.1、192.168.1

3.8 匹配中文

如果我们想匹配字符串中的中文字符，可以使用以下正则表达式：

[\u4e00-\u9fa5]

解释：

\u4e00-\u9fa5：匹配 Unicode 范围内的中文字符。

示例：

输入：你好，世界！
匹配：你好世界

3.9 匹配多行文本中的特定行

如果我们想匹配多行文本中以特定字符串开头的行，可以使用以下正则表达式：

^.*特定字符串.*$

解释：

^：匹配行的开头。
.*：匹配任意字符（零次或多次）。
特定字符串：匹配目标字符串。
.*：匹配任意字符（零次或多次）。
$：匹配行的结尾。

示例：

输入：

Hello, World!
This is a test.
Specific line starts here.

匹配：Specific line starts here.

3.10 匹配 JSON 中的键值对

如果我们想匹配 JSON 中的键值对，可以使用以下正则表达式：

"(\w+)":\s*"([^"]*)"

解释：

"(\w+)"：匹配键名，\w+ 表示一个或多个字母、数字或下划线。
:：匹配冒号 :。
\s*：匹配零个或多个空白字符。
"([^"]*)"：匹配值，[^"]* 表示除 " 之外的任意字符。

示例：

输入：{"name": "John", "age": "30"}
匹配："name": "John" 和 "age": "30"

4. 正则表达式工具推荐

在学习和使用正则表达式的过程中，借助一些工具可以大大提高效率。以下是几款常用的正则表达式工具，帮助你快速测试、调试和优化正则表达式。

4.1 在线正则表达式测试工具

1. Regex101

网址：regex101: build, test, and debug regex
特点：
- 支持多种编程语言的正则表达式语法（如 Python、JavaScript、PHP 等）。
- 提供详细的匹配解释和调试信息。
- 支持保存和分享正则表达式。
适用场景：快速测试和调试正则表达式。

2. RegExr

网址：https://regexr.com/
特点：
- 界面简洁，实时显示匹配结果。
- 提供正则表达式语法参考和示例。
- 支持保存正则表达式到本地。
适用场景：学习和测试正则表达式。

3. Debuggex

网址：Debuggex: Online visual regex tester. JavaScript, Python, and PCRE.
特点：
- 提供正则表达式的可视化图形，帮助理解匹配逻辑。
- 支持实时调试和测试。
适用场景：理解复杂正则表达式的匹配逻辑。

4.2 编程语言中的正则表达式工具

1. Python - `re` 模块

Python 内置的正则表达式模块，功能强大且易于使用。

示例：

import re
pattern = r'\d+'
text = 'There are 123 apples and 456 oranges.'
matches = re.findall(pattern, text)
print(matches)  # 输出: ['123', '456']

2. JavaScript - `RegExp` 对象

JavaScript 中的正则表达式支持，适用于前端和后端开发。

示例：

const pattern = /\d+/g;
const text = 'There are 123 apples and 456 oranges.';
const matches = text.match(pattern);
console.log(matches);  // 输出: ['123', '456']

3. Java - `java.util.regex` 包

Java 中的正则表达式工具，适用于复杂的文本处理。

示例：

import java.util.regex.*;
public class Main {
    public static void main(String[] args) {
        String pattern = "\\d+";
        String text = "There are 123 apples and 456 oranges.";
        Pattern p = Pattern.compile(pattern);
        Matcher m = p.matcher(text);
        while (m.find()) {
            System.out.println(m.group());  // 输出: 123, 456
        }
    }
}

4.3 文本编辑器中的正则表达式支持

1. VS Code

支持正则表达式搜索和替换。
快捷键：Ctrl+F（搜索）或 Ctrl+H（替换），勾选“使用正则表达式”。
适用场景：在代码中快速查找和替换文本。

2. Sublime Text

强大的正则表达式支持，支持多行匹配和批量替换。
快捷键：Ctrl+F（搜索）或 Ctrl+H（替换），勾选“正则表达式”。
适用场景：处理大型文本文件。

3. Notepad++

支持正则表达式搜索和替换，界面简单易用。
快捷键：Ctrl+F（搜索）或 Ctrl+H（替换），勾选“正则表达式”。
适用场景：快速处理文本文件。

4.4 命令行工具

1. `grep`

Linux/Unix 系统中的文本搜索工具，支持正则表达式。
示例：
```
grep -E '\d+' file.txt
```
适用场景：在文件中查找匹配的文本。

2. `sed`

流编辑器，支持正则表达式替换。
示例：
```
sed -E 's/\d+/NUM/g' file.txt
```
适用场景：批量替换文件中的文本。

3. `awk`

强大的文本处理工具，支持正则表达式。
示例：
```
awk '/\d+/ {print}' file.txt
```
适用场景：处理结构化文本数据。

5. 正则表达式的最佳实践

正则表达式虽然强大，但如果使用不当，可能会导致性能问题或难以维护的代码。以下是一些最佳实践，帮助你编写高效、可读性强的正则表达式。

5.1 保持简洁

避免过度复杂化：正则表达式应尽量简洁，避免嵌套过多的量词和分组。复杂的正则表达式不仅难以理解，还可能影响性能。
示例：
- 不推荐：^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$（匹配 IP 地址）
- 推荐：如果可能，使用更简单的逻辑或分步验证。

5.2 使用非捕获分组

减少不必要的捕获：如果不需要捕获分组中的内容，使用非捕获分组 (?:...) 可以提高性能。
示例：
- 不推荐：(abc)|(def)（捕获两个分组）
- 推荐：(?:abc)|(?:def)（不捕获分组）

5.3 避免贪婪匹配

贪婪匹配的性能问题：默认情况下，量词是贪婪的，会尽可能多地匹配字符。在某些情况下，这可能导致性能问题。
使用懒惰匹配：在量词后加上 ? 可以使其变为懒惰模式，尽可能少地匹配字符。
示例：
- 贪婪匹配：<.*>（匹配 <div>content</div> 中的整个字符串）
- 懒惰匹配：<.*?>（匹配 <div> 和 </div> 分别）

5.4 测试和验证

全面测试：编写正则表达式后，使用多种测试用例验证其正确性，包括边界情况和异常输入。
工具辅助：使用在线工具（如 Regex101）或编程语言的调试功能，检查正则表达式的匹配结果。

5.5 添加注释

提高可读性：对于复杂的正则表达式，使用注释解释其逻辑。某些工具和编程语言支持在正则表达式中添加注释。

示例（Python）：

pattern = r"""
    ^               # 匹配字符串开头
    \d{3}           # 匹配 3 位数字
    -               # 匹配连字符
    \d{2}           # 匹配 2 位数字
    $               # 匹配字符串结尾
"""

5.6 避免过度依赖正则表达式

适合的场景：正则表达式适合处理模式固定的文本，但不适合处理复杂的逻辑或结构化数据（如 JSON、XML）。
替代方案：对于复杂的数据处理，可以使用专门的解析工具（如 JSON 解析器、XML 解析器）。

5.7 性能优化

减少回溯：避免使用可能导致大量回溯的模式，如嵌套量词或复杂的交替匹配。
预编译正则表达式：在编程语言中，如果需要多次使用同一个正则表达式，可以预编译它以提高性能。
- 示例（Python）：
```
import re
pattern = re.compile(r'\d+')
matches = pattern.findall('123 apples and 456 oranges')
```