正则表达式：掌握文本处理的秘密武器

最新推荐文章于 2025-10-10 17:35:56 发布

梦想是坚持

最新推荐文章于 2025-10-10 17:35:56 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：原力值打卡文章标签： mysql 数据库

本文链接：https://blog.csdn.net/wanghongpu9305/article/details/134293837

原力值打卡专栏收录该内容

52 篇文章

订阅专栏

当我们处理文本数据时，正则表达式是一种强大的工具，可以帮助我们快速、准确地找到所需的信息。通过匹配和筛选文本模式，正则表达式可以简化文本处理任务，提高工作效率。本文将带你走进正则表达式的世界，探讨它的工作原理、应用案例以及注意事项。

正则表达式的作用

匹配：可以用来匹配字符串中的特定模式，即查找字符串中符合某种规则的内容。
替换：可以用来替换字符串中符合某种规则的内容，将其替换为指定的内容。
验证：可以用来验证字符串是否符合某种规则，如邮箱、电话号码、身份证号等格式的验证。
提取：可以用来从文本中提取特定的信息，如提取网页中的链接、提取邮件中的附件等。

通过正则表达式，我们可以轻松地匹配、搜索、替换和验证文本数据。正则表达式虽然看起来复杂，但其实它是一种非常有用的工具，特别是对于文本处理任务。

正则表达式的构成

以下是一个正则表达式特殊字符及其所代表含义的表格：

特殊字符	含义
.	匹配除了换行符之外的任意字符
\n	匹配换行符（换行符是一个特殊的字符，不占用空格）
\s	匹配任何空白字符，包括空格、制表符、换页符等
\S	匹配任何非空白字符
\d	匹配任何数字字符，等价于 [0-9]
\D	匹配任何非数字字符，等价于 [^0-9]
\w	匹配任何字母、数字或下划线字符，等价于 [A-Za-z0-9_]
\W	匹配任何非字母、数字或下划线字符，等价于 [^A-Za-z0-9_]
[]	用于定义字符集，匹配方括号内的任意一个字符
[^]	用于定义非字符集，匹配除了方括号内字符之外的任意字符
*	匹配前面的字符或模式出现零次或多次
+	匹配前面的字符或模式出现一次或多次
?	匹配前面的字符或模式出现零次或一次
{n}	精确匹配前面的字符或模式出现n次
{n,}	匹配前面的字符或模式出现至少n次，但不超过正则表达式的尾部
{n,m}	匹配前面的字符或模式出现n到m次，其中n和m都是正整数，且n <= m。如果n和m的值相同，则与{n}的效果相同。如果n的值大于m的值，则与{m,}的效果相同。如果n和m的值不同，则与{n,m}的效果相同。例如，[a-z]{2,4} 可以匹配 "a"、"ab"、"abc"、"abcd"，但不能匹配 "abcde" 或 "j" 等字符。
\0 to \7	可以表示八进制编码中的任意一个数字，其中 \0 表示八进制数中的零，\1 到 \7 表示八进制数中的其他数字。例如，\255 表示八进制数中的 FF。但是，在正则表达式中，只有 \0 可以直接使用，其他数字需要用反斜杠进行转义。例如，如果要匹配文本中的 "FF"，可以使用正则表达式 \xFF。
\xXX 或 \x{XX} 或 \uXXXX 或 \u{XXXX} 或 \UXXXXXXXX 或 \U{XXXXXXXX}	可以表示 Unicode 编码中的任意一个字符。其中 \xXX 表示使用十六进制编码表示的字符，\x{XX} 表示使用十六进制编码表示的字符（允许使用大写的 X），\uXXXX 表示使用四位十六进制编码表示的 Unicode 字符（允许使用大写的 X），\u{XXXX} 表示使用四位十六进制编码表示的 Unicode 字符（允许使用大写的 X 和小写的 u），\UXXXXXXXX 表示使用八位十六进制编码表示的 Unicode 字符（允许使用大写的 U），\U{XXXXXXXX} 表示使用八位十六进制编码表示的 Unicode 字符（允许使用大写的 U 和小写的 u）。例如，如果要匹配文本中的 "你"，可以使用正则表达式 \u4F60。如果要匹配文本中的 "你"，可以使用正则表达式 \U0004F60。注意，在正则表达式中，所有的反斜杠都需要用双反斜杠进行转义。例如，如果要匹配文本中的 ""，可以使用正则表达式 ""。

应用案例

正则表达式在日常生活中的使用非常广泛，例如在文本搜索、数据筛选、日志分析等领域。以下是一些常见的应用案例：

1. 邮箱验证

const emailRegex =
  /^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$/
console.log(emailRegex.test("example@example.com")) // true
console.log(emailRegex.test("example@example..com")) // false

2. 手机号验证

// 只要是13 - 19开头即可的手机号
const phoneRegex = /^(?:(?:\+|00)86)?1[3-9]\d{9}$/

console.log(phoneRegex.test("+8613456789098")) // true
console.log(phoneRegex.test("13456789098")) // true
console.log(phoneRegex.test("12345678909")) // false

3. 时间格式验证

// 24小时制（HH:mm:ss）
const timeRegex = /^(?:[01]\d|2[0-3]):[0-5]\d:[0-5]\d$/
console.log(timeRegex.test("23:59:59")) // true
console.log(timeRegex.test("24:00:00")) // false
console.log(timeRegex.test("00:00:00")) // true

4. 格式化金额数字

// 每3位添加逗号
const pattern = /(\d)(?=(\d{3})+(?!\d))/g
console.log("1234567.89".replace(pattern, "$1,")) // 1,234,567.89
console.log("123456789.89".replace(pattern, "$1,")) // 123,456,789.89