正则表达式

latherou

于 2023-09-12 17:33:12 发布

阅读量98

点赞数

分类专栏： # Java基础文章标签：正则表达式 java 开发语言

本文链接：https://blog.csdn.net/latherou/article/details/132837236

版权

Java基础专栏收录该内容

12 篇文章 0 订阅

订阅专栏

正则表达式

是专门对字符串进行查找、提取、替换、校验的一种强大的字符串分析器。
市面上几乎所有的编程语言都支持正则表达式。
正则表达式是由一些特殊字符组成的

正则匹配规则

精确匹配

xyz : 匹配 xyz (非正则中的特殊字符)

单字符匹配

[xyz] : 匹配 x, y, z 中的任意一个字符
[0-9] : 匹配任意一个数字
[a-zA-Z] : 匹配任意一个字母
[a-zA-Z0-9] : 匹配任意一个字母或数字
[a-z0-9A-Z_] :匹配任意一个字母、数字、下划线(单词字母)
[^a-z0-9A-Z_] : 匹配任意一个非单词字符
[^0-9] : 匹配任意一个非数字

元字符匹配

\d : 匹配任意一个数字、等价于 [0-9]
\D : 匹配任意一个非数字、等价于 [^0-9]
\w : 匹配任意一个单词字符、等价于 [a-z0-9A-Z_]
\W : 匹配任意一个非单词字符、等价于 [^a-z0-9A-Z_]
\s : 匹配任意一个空白字符(空格、制表符、换行符)
\S : 匹配任意一个非空白字符
- \h : 匹配任意一个空格或者制表符
- \t : 匹配任意一个制表符
- \r\n : 匹配 window 环境下的换行
- \n : 匹配 Linux 环境下的换行
. : 除换行符以外的任意字符
. : 匹配一个点 (正则中的特殊字符有特殊含义，单如果要匹配特殊字符对应的字符，则需要转义)

多个字符匹配

X{m} : 匹配 m 个 X
X{m,} : 匹配至少 m 个 X
X{m,n}: 匹配至少 m个 X, 最多不超过 n 个 X

贪婪式匹配

X? : 匹配 0 ~ 1 个 X , X{0, 1}
X+ : 匹配至少 1 个 X , X{1,}
X* : 匹配至少 0 个 X , X{0,}

尽可能多的匹配能够匹配的内容，让贪婪表达式后面的表达式尽可能晚的尝试匹配

非贪婪式匹配

表现上，在贪婪式表达式的后面添加 ? 形成非贪婪式。

X?? : 匹配 0 ~ 1 个 X , X{0, 1}
X+? : 匹配至少 1 个 X , X{1,}
X*? : 匹配至少 0 个 X , X{0,}

尽可能少的匹配能够匹配的内容，让非贪婪式后面的表达式尽可能早的完成匹配

分组

使用小括号，将一段正则括起来，形成一个组

命名捕获分组

给一个组设置一个名字，语法 (?regex)

非命名捕获分组

让小括号不在作为组，语法 (?:regex)

引用分组

引用一个组匹配的内容，语法 \n (n 代表组的序号)

选择 |

| 可以将2个正则进行拼接、匹配 2个正则匹配的内容

限定符

^ : 以 … 开头，必须出现在正则的头部
$ : 以 … 结尾、必须出现在正则的尾部

主要负责校验字符串

匹配中文

[\u4e00-\u9fa5]

断言

(?=) : 正向确定断言

\w+(?=s) :  匹配 一个以 s 结尾的单词、且不包含 s

(?<=) : 反向确定断言

(?<=window)\d+  :  匹配 多个数字、且数字的前面 一定是 window

(?!) : 正向否定断言

(?<!) : 反向否定断言

Java 中操作正则表达式

正则表达式是由一组特殊字符组成的字符串、那么为了和字符串的使用进行区分， Java中提供了一个 Pattern 类。
Pattern 类表示模式，正则就是一种模式，所以 Pattern 用来表示 Java中的正则。
Matcher 类用来进行正则匹配、可以使用查找、提取、替换等功能。

Pattern 类

Pattern.compile(regex) ; 将一个字符串格式的正则表达式转成 Pattern 对象
Pattern.compile(regex, flags) : 将一个字符串格式的正则表达式转成 Pattern 对象, 并设置正则修饰符
Pattern.matches(regex, str) : 使用正则匹配某一个字符串

Pattern 类提供的成员方法

matcher(str) : 传入要处理的字符串、返回一个正则匹配器

Matcher 类提供的成员方法

find() : 查找字符串中是否拥有满足正则匹配的内容，如果有，返回 true, find每次只能找到正则匹配的一个内容，如果需要找多个，多次调用 find
start() : 获取正则匹配的内容的其实位置，先调用 find() 才可以使用，
start(group) : 获取正则第 group 组子表达式匹配的内容的起始位置
start(groupName) : 获取正则组名为 groupName的子表达式匹配的内容的起始位置
end() : 获取正则匹配的内容的结束位置，用法和 start() 相同
group() : 用来提取正则匹配的内容，用法和 start() 相同
matches() : 用来对字符串进行校验、会对正则自动添加限定符
appendReplacement(sb, replacement) : 追加替换到 StringBuilder/StringBuffer中
appendTail(sb) : 将字符串尾部的信息拼接到 StringBuilder/StringBuffer中

 // 做 字符串拼接
StringBuilder sb = new StringBuilder();

while (m.find()) {
    // 获取 正则匹配的 第一组的 内容
    //String key = m.group(1);
    m.appendReplacement(sb, "?");
}
// 整个循环结束后，将 后面的内容拼接到 sb 中
m.appendTail(sb);