五分钟搞定Java正则表达式

1 篇文章 0 订阅
1 篇文章 0 订阅

1. 正则表达式的创建

1.1 导入包:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

1.2 创建:

//可以写成\d{3}-\d{3}-\d{4} 详情参见8
Pattern pattern = Pattern.compile("\\d\\d\\d-\\d\\d\\d-\\d\\d\\d\\d");
Matcher matcher = pattern.matcher("电话号码:444-555-6666 \n 电话号码:444-555-6669");

1.3 取匹配值:

while (matcher.find()) {
    System.out.println("start:"+matcher.start());//匹配到的开始位置
    System.out.println("e n d:"+matcher.end());//匹配到的结束位置
    System.out.println(matcher.group(0));//0为整个表达式结果
}

1.4 正则匹配结果输出:

start:5
e n d:17
444-555-6666
start:25
e n d:37
444-555-6669

2. 正则表达式的括号分组

2.1 创建分组:
如果想要将区号从电话号中分离,添加括号就可以在正则表达式中创建“分组”:(\d\d\d)-(\d\d\d-\d\d\d\d)

Pattern pattern = Pattern.compile("(\\d\\d\\d)-(\\d\\d\\d-\\d\\d\\d\\d)");
Matcher matcher = pattern.matcher("电话号码:444-555-6666 \n 电话号码:444-555-6669");
while (matcher.find()) {
    int count = matcher.groupCount();
    for(int i=1;i<=count;i++){//0是整个正则表达式的匹配结果,从1开始才是真正的分组结果
        System.out.println(matcher.group(i));
    }
}

2.2 正则匹配结果输出:

444 //区号
555-6666 //电话号
444 //区号
555-6669 //电话号

3. 管道匹配多个分组

3.1 "|"既是管道匹配符,管道匹配符匹配许多表达式中的一个时,就可以使用它。
如:“gaierlin And erlin!” 要匹配gaierlin及erlin两个分组中的一个

Pattern pattern = Pattern.compile("gaierlin|erlin");
Matcher matcher = pattern.matcher("gaierlin And erlin!");
while (matcher.find()) {
    System.out.println(matcher.group(0));
}

3.2 正则匹配结果输出:

gaierlin
erlin

4. 问号实现可选匹配

4.1 ?(问题)匹配零次或一次,如果想匹配的模式是可选的,则使用字符?表明它前面的分组在这个模式中是可选的。
如:“电话号码:444-555-6666 \n 电话号码:555-6669”,区号是可选项匹配,即(\d\d\d-),分组(\d\d\d-)出现零次或一次

Pattern pattern = Pattern.compile("(\\d\\d\\d-)?\\d\\d\\d-\\d\\d\\d\\d");
Matcher matcher = pattern.matcher("电话号码:444-555-6666 \n 电话号码:555-6669");
while (matcher.find()) {
    System.out.println(matcher.group(0));
}

4.2 正则匹配结果输出:

444-555-6666
555-6669

5. 星号匹配零次或多次

5.1 (星号)匹配零次或多次,即星号之前的分组可以出现任意多次(零次或一次或二次或一次又一次)
如:“love、lve、abc、loove、dbc、labcve、a9ve、abve、looooove”,找出所有lo
ve的所有内容。

Pattern pattern = Pattern.compile("l(o)*ve");
Matcher matcher = pattern.matcher("love、lve、abc、loove、dbc、labcve、a9ve、abve、looooove");
while (matcher.find()) {
    System.out.println(matcher.group(0));
}

5.2 正则匹配结果输出:

love
lve
loove
looooove

6. 加号匹配一次或多次

6.1 +(加号)匹配一次或多次,即加号之前的分组可以出现至少一次。
如:“love、lve、abc、loove、dbc、labcve、a9ve、abve、looooove”,找出所有lo*ve的所有内容。

Pattern pattern = Pattern.compile("l(o)+ve");
Matcher matcher = pattern.matcher("love、lve、abc、loove、dbc、labcve、a9ve、abve、looooove");
while (matcher.find()) {
    System.out.println(matcher.group(0));
}

6.2 正则匹配结果输出:

love
loove
looooove

7. 花括号匹配特定次数

7.1 {}重复特定次数的分组:
(love){,5}:代表重复0到5次
(love){2,5}:代表重复2次到5次
(love){5,}:代表重复5次到更多次

如:“I you, I love you, I love love you, I love love love you, I love love love love you, I love love love love love you, I love love love love love love love love you!”

Pattern pattern = Pattern.compile("I (love ){3,5}you");
Matcher matcher = pattern.matcher("I you, I love you, I love love you, I love love love you, I love love love love you, I love love love love love you, I love love love love love love love love you!");
while (matcher.find()) {
    System.out.println(matcher.group(0));
}

7.2 正则匹配结果输出:

I love love love you
I love love love love you
I love love love love love you

8. 字符分类

8.1 在上面的实例中已经知道\d代表任意0-9的数字,像这样有缩写代码的如下表所示:只列出最常用的

缩写分类表示
\d0-9任意数字
\D除0-9的数字以外的任意字符
\w任意字母、数字、下划线字符
\W除字母、数字、下划线以外的任意字符
\s空格、制表符、回车换行符
\S除空格、制表符、回车换行符以外的任意字符

再举号码:“电话号码:444-555-6666 \n 电话号码:444-555-6669”

Pattern pattern = Pattern.compile("(\\d){3}-(\\d){3}-(\\d){4}");
Matcher matcher = pattern.matcher("电话号码:444-555-6666 \\n 电话号码:444-555-6669");
while (matcher.find()) {
    System.out.println(matcher.group(0));
}

8.2 正则匹配结果输出:

444-555-6666
444-555-6669

9. 方括号自定义字符分类

9.1 有时候\d \w \s等字符描述太宽泛,不能完成目标任务。
如:检查文件命名是否合法(在文件命名中不允许出现?*|“<>:/字符),如果包含此类字符则不合法。
此时就可以使用[]来自定义字符分类

Pattern pattern = Pattern.compile("[?*|“<>:/]");
Matcher matcher = pattern.matcher("abc*.txt");
if(matcher.find()) {
    System.out.println("文件名不合法");
}else {
    System.out.println("文件名合法");
}

9.2 正则匹配结果输出:

文件名不合法

注意:
matches() 是拿整个输入的字符串和定义的正则模式匹配;
find() 是包含匹配, 整个输入的字符串包含定义的正则模式;
自行尝试下即可知道结果

10. 通配字符

10.1 .(句点)字符在正则表达式中称为“通配符”,它是除了回车换行符之外的所有字符都可以匹配。
但是要记住通配字符只能匹配一个字符。
如:“I love you! I lo0ve you! I loove you!”

Pattern pattern = Pattern.compile("I (lo.ve) you");
Matcher matcher = pattern.matcher("I love you! I lo0ve you! I loove you!");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

10.2 正则匹配结果输出:

I lo0ve you
I loove you

11. 插入字符和美元字符

11.1 ^(插入字符)表明匹配必须发生在被查找文本开始处。
$(美元字符)表明匹配必须发生在被查找文本结束处。

如:“Hello World” 分别用匹配"Hello"、"World$"及"Hello World$"

Pattern pattern = Pattern.compile("^Hello");
Matcher matcher = pattern.matcher("Hello World");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

11.2 正则匹配结果输出:

Hello

"World$“及”^Hello World$"请自行尝试

12. 转义字符

12.1 \ (反作)字符,即为转义字符
如:“C+ C++”

  • 不添加\转义
Pattern pattern = Pattern.compile("C++");
Matcher matcher = pattern.matcher("C+ C++");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

正则匹配结果输出:

C
C
  • 添加\转义
Pattern pattern = Pattern.compile("C\\+\\+");
Matcher matcher = pattern.matcher("C+ C++");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

正则匹配结果输出:

C++

13. 用点-星匹配所有字符

13.1 匹配所有字符串(.*)
.(句点):通配符
(星号):出现0次或多次
所以(.
)既是匹配所有字符,但是换行符要除外

如:“First Name: gai LastName:erlin \n First Name: gai1 LastName:erlin1 \n First Name: g2ai LastName:2erlin”

Pattern pattern = Pattern.compile("First Name: (.*) LastName:(.*)");
Matcher matcher = pattern.matcher("First Name: gai LastName:erlin \n First Name: xxx LastName:erlin_xxx \n First Name: ooo LastName:xxx_erlin ");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

13.2 正则匹配结果输出:

First Name: gai LastName:erlin 
First Name: xxx LastName:erlin_xxx 
First Name: ooo LastName:xxx_erlin

14. 用句点字符匹配换行符

14.1 在Pattern类中有

public static Pattern compile(String regex, int flags)

方法,参数flags:正则表达式的标记模式。
所有标记模式如下表:

编译标志解释
Pattern.CANON_EQ当且仅当两个字符的"正规分解(canonical decomposition)“都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式"a/u030A"会匹配”?"。默认情况下,不考虑"规范相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE (?i)默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配,只要将UNICODE_CASE与这个标志合起来就行了。
Pattern.COMMENTS (?x)在这种模式下,匹配时会忽略(正则表达式里的)空格字符(注:不是指表达式里的"//s",而是指表达式里的空格,tab,回车之类)。注释从#开始,一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。
Pattern.DOTALL (?s)在这种模式下,表达式’.‘可以匹配任意字符,包括表示一行的结束符。默认情况下,表达式’.'不匹配行的结束符。
Pattern.MULTILINE (?m)在这种模式下,’^‘和’KaTeX parse error: Expected group after '^' at position 19: …匹配一行的开始和结束。此外,'^̲'仍然匹配字符串的开始,''也匹配字符串的结束。默认情况下,这两个表达式仅仅匹配字符串的开始和结束。
Pattern.UNICODE_CASE (?u)在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不明感的匹配。默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。
Pattern.UNIX_LINES (?d)在这个模式下,只有’/n’才被认作一行的中止,并且与’.’,’^’,以及’$'进行匹配。

14.2 跨多行匹配举例
如:“abs \n start asdfkkie \nhello \naidnkd end” 要匹配start开始到end结束

Pattern pattern = Pattern.compile("start (.*) end$",Pattern.DOTALL);
Matcher matcher = pattern.matcher("abs \n start asdfkkie \nhello \naidnkd end");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

14.3 正则匹配结果输出:

start asdfkkie 
hello 
aidnkd end

14.4 不区分大小写举例:
如:“gaierlin And erlin! GaiErLin And ErLIN!”

Pattern pattern = Pattern.compile("(gai)*erlin",Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher("gaierlin And erlin! GaiErLin And ErLIN!");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

14.5 正则匹配结果输出:

gaierlin
erlin
GaiErLin
ErLIN

14.6 不区分大小写且跨多行举例:
如:“abs \n START asdfkkie \nhello \naidnkd END \nstart abc \n defg\n ffff end”

public static Pattern compile(String regex, int flags)

compile方法的flags只接受一个参数,如果要使用两个以上的标记编译正则怎么实现?
答案是:使用|即:Pattern.CASE_INSENSITIVE|Pattern.DOTALL

Pattern pattern = Pattern.compile("start (.*) end",Pattern.CASE_INSENSITIVE|Pattern.DOTALL);
Matcher matcher = pattern.matcher("abs \\n START asdfkkie \\nhello \\naidnkd END \\n start abc \\n defg\\n ffff end");
while (matcher.find()){
    System.out.println(matcher.group(0));
}

14.7 正则匹配结果输出:

START asdfkkie \nhello \naidnkd END \n start abc \n defg\n ffff end

15. 如何让别人更好的理解你所写的正则表达式

15.1 如:javatianxia@163.com 验证邮箱为例

Pattern pattern = Pattern.compile(
        "^\\w+(\\.\\w+)?" + //邮件登录名
        "\\@\\w+" +         //主机名
        "\\.(\\w+){2,4}"    //域名
);
Matcher matcher = pattern.matcher("javatianxia@163.com");
if (matcher.matches()) {
    System.out.println("合法");
} else {
    System.out.println("不合法");
}

看到这里想必都已经明白了,就是对正则表达式添加注释。

15.2 正则匹配结果输出:

合法

简书:https://www.jianshu.com/p/c390a2da7d82

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值