java的正则表达式应用总结

最新推荐文章于 2023-02-10 16:53:51 发布

15737443266

最新推荐文章于 2023-02-10 16:53:51 发布

阅读量307

点赞数 1

分类专栏：笔记文章标签： java

本文链接：https://blog.csdn.net/qq_19373729/article/details/114737827

版权

笔记专栏收录该内容

11 篇文章

订阅专栏

本文总结了Java中正则表达式的应用，包括String类的replaceFirst(), replaceAll(), split()方法，以及如何使用split()方法进行字符串拆分。还详细解释了matches(), replaceAll(), replaceFirst()等方法的工作原理，并提供了示例。文章讨论了正则表达式在全字符串匹配、查找匹配项和替换匹配项等方面的应用，并提到了Pattern和Matcher类在正则表达式处理中的重要作用。" 81562858,7414802,从入门到精通：老男孩教育Python全栈学习路线,"['Python', 'Python培训', 'Web开发', '数据处理', '人工智能']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

01：正则表达式在任何一门语言都包括，至于正则表达式的学习，可以专门针对。

02：在String中使用的正则表达式。
a:String中所使用到的正则表达式的方法包括：replaceFirst() replaceAll() split()这些方法。
b:除此之外的方法不可以使用正则表达式。

03：解释JavaSE中的 String类的split()方法：
在这里插入图片描述
public String[] split(String regex , int limit)
根据匹配给定的正则表达式来拆分此字符串。
此方法返回的数组包含此字符串的每个子字符串，
这些子字符串由另一个匹配给定的表达式的子字符串终止或由字符串结束来终止。
//开始：是从当前字符串的开头开始的
//结束: 由下一个匹配的字符串结束，或者一直到传递字符串的结束位置。
注意：可能会引起空字符串的情况，如下解释。

数组中的子字符串按它们在此字符串中的顺序排列。如果表达式不匹配输入的任何部分，则结果数组只具有一个元素，即当前字符串。

limit 参数控制模式应用的次数，因此影响结果数组的长度。如果该限制 n 大于 0，则模式将被最多应用 n - 1 次，数组的长度将不会大于 n，而且数组的最后项将包含超出最后匹配的定界符的所有输入。
如果 n 为非正，则模式将被应用尽可能多的次数，而且数组可以是任意长度。并且结尾空字符串将被丢弃。
如果 n 为零，则模式将被应用尽可能多的次数，数组可有任何长度，并且结尾空字符串将被丢弃。

例如，字符串 “boo:and:foo” 使用这些参数可生成下列结果：

Regex Limit 结果

2 { “boo”, “and:foo” }

5 { “boo”, “and”, “foo” }

-2 { “boo”, “and”, “foo” }
o 5 { “b”, “”, “:and:f”, “”, “” } //结尾的空字符串并没有被丢弃
o -2 { “b”, “”, “:and:f”, “”, “” } //结尾的空字符串并没有被丢弃
o 0 { “b”, “”, “:and:f” } //结尾的空字符串【2个】被丢弃！！！

这种形式的方法调用 str.split(regex, n) 产生与以下表达式完全相同的结果：
Pattern.compile(regex).split(str, n)

replaceAll 和 replaceFirst 方法使用的是正则表达式，但是正则表达式也属于字符串，这里也可以使用具体的字符串的形式【此时具体的字符串同样代表正则表达式】，java教材上面写的是具体的字符串的形式。
====》生成新的对象，但是并没有改变原来的字符串
在这里插入图片描述
第一个方法是替换，但是替换的是char,不是String。依然替换的所有的字符。

第二个方法是替换的CharSequence（包括String, StringBuffer, StringBuilder）,但是替换的是全部。

第三个replaceAll是替换全部的字符串形式的正则表达式，

第四个是替换字符串中第一个匹配的项，但是人家名字写得明明白白的replaceFirst,而且替换的也是正则表达式。

//但是牢记：第一个参数可以是字符【char】字符串【String】字符序列【charSequence】或者是正则表达式的字符串形式
第二个参数必须是字符串的形式。

解释：
第一个方法：执行思路：我们用后面的字符替换字符串中出现的所有的第一个形式参数的字符。
//使用的是字符串中的包含

第二个方法: 执行思路同上

第三个方法: 第一个形式参数必须是一个正则表达式的字符串表示形式，然后执行字符串对象的包含功能，将当前字符串中包含正则表达式的匹配项全部替换掉。

第四个方法: 执行思路同上，但是仅仅替换包含在当前字符串中的正则表达式的第一个匹配项。

//注意：此时我们一定要注意，在使用replaceAll的时候传递的如果是要给字符串，那么此时的字符串被解释成为一个正则表达式而存在。在一般情况下确定的字符串如果被当做是一个正则表达式而存在的话，那么就表示必须匹配当前的字符串的一种形式而没有了正则表达式的多种形式的可能。
因此我们总结：确定的字符串也是正则表达式的一种特殊形式，只不过与大多数的正则表达式而言，没有那么多变化，就这一种可能。
public static void main(String args[]) {
String value = “cat” ;
System.out.println(value.matches(".at")); //true 可以匹配 cat fat kat mat等等。
}

public static void main(String args[]) {
String value = “cat” ;
System.out.println(value.matches(“cat”));//true 只可以匹配cat
}

//具体的正则表达式可以参考之前的网络下载资料和总结的笔记以及教材《必知必会》

matches()匹配正则表达式：

在这里插入图片描述
语法 :public boolean matches(String regex)
参数:regex – 匹配字符串的正则表达式。
返回值 : 在字符串匹配给定的正则表达式时，返回 true。指的是传递的所有的字符串跟模式完全吻合。

实例
public class Test {
public static void main(String args[]) {
String Str = new String(“www.w3cschool.cn”);

	System.out.print("返回值 :" );
	System.out.println(Str.matches("(.*)youj(.*)"));//false
	
	System.out.print("返回值 :" );
	System.out.println(Str.matches("(.*)google(.*)"));//false

	System.out.print("返回值 :" );
	System.out.println(Str.matches("www(.*)"));//true
}

}
//备注：这里我们需要确切的知道 java的正则正则表达式的具体写法，必须知道 java的正则表达式的标准写法和要求。

在java中正则表达式如果使用字符串的形式来写就必须在正则表达式前后加上双引号，跟js的写法不一样，不可以在后面写 gim 来表示全局忽略大小写多行。
用字符串的形式去表示一个正则表达式比如：
匹配 email的格式： String Email_regex= “\w+@\w+\.\w{2,3}”;
只能输入零和非零开头的数字：String value = “^(0|[1-9][0-9]*) $只能输入有1-3位小数的正实数：String value = “^[0-9]+(.[0-9]{1,3})?$ ”

//注意：如果想实现忽略大小写多行等等还有捕获组这些牛逼的要求就需要 java提供的正则表达式的类【Pattern Matcher】。java正则表达式通过java.util.regex包下的Pattern和Matcher类实现

Pattern类：
在这里插入图片描述
//上边的 CANON_EQ CASE_INSENSITIVE COMMENTS DOTALL LITERAL MULTILINE UNICODE_CASE UNIX_LINES 写在 Patter.compile(String regex , int flags)的flags中。

Pattern 类包含多个标志(int 类型),这些标志可以控制Pattern 匹配模式的方式。

compile()方法：在这里插入图片描述

Pattern类用于创建一个正则表达式实例对象，也可以说是创建一个匹配模式。

可以通过两个静态方法创建：compile(String regex)和compile(String regex,int flags)，
其中regex是正则表达式，flags为可选模式(如：Pattern.CASE_INSENSITIVE 忽略大小写)，==>来创建正则表达式的实例对象。除此之外没有别的方法来创建正则表达式对象，这可以通过静态方法来创建正则表达式对象。

matches()方法：
在这里插入图片描述

Pattern类也自带一个静态匹配方法matches(String regExp, CharSequence input)，但只能进行全字符串匹配并且只能返回是否匹配上的 boolean值
//Pattern 类中只有这个一个 matches()方法，正则表达式是第一个形式参数，传递的字符串是第二个形式参数。用于测试字符串是否跟模式完全匹配。

实例：
String test1 = “Java”;
String test2 = “Java123456”;
System.out.println(Pattern.matches(“Java”,test1));//返回true
System.out.println(Pattern.matches(“Java”,test2));//返回false
//全局匹配：使用第一个参数的 regExp 完全跟input【全部的input输入】进行匹配。

split()方法：
在这里插入图片描述
public String[] split(CharSequence input, int limit)
//但是一定要明白这个是正则表达式实例对象所具备的 split（）方法。

根据匹配给定的正则表达式来拆分此字符串。
此方法返回的数组包含此字符串的每个子字符串，
这些子字符串由另一个匹配给定的表达式的子字符串终止或由字符串结束来终止。
//开始：是从当前字符串的开头开始的
//结束: 由下一个匹配的字符串结束，注意：可能会引起空字符串的情况，如下情况。

数组中的子字符串按它们在此字符串中的顺序排列。如果表达式不匹配输入的任何部分，则结果数组只具有一个元素，即当前字符串。

例如，字符串 “boo:and:foo” 使用这些参数可生成下列结果：

Regex Limit 结果

2 { “boo”, “and:foo” }

5 { “boo”, “and”, “foo” }

参数：
input - 要拆分的字符序列。
limit - 结果阈值，如上文中所述。

Matcher类的解释:
结合Pattern 和 Matcher 类的思路。
①将正则表达式封装成对象： Pattern p = Pattern.compile(regex)；
②让正则对象和要操作的字符串相关联 -----> 匹配器引擎： Matcher m = p.matcher(str) ；
于是我们得到了一个匹配器引擎。

matcher()方法：
在这里插入图片描述
//创建Matcher
通过Pattern的实例对象的 matcher() 方法创建一个Matcher。 //括号里的参数是要被匹配的字符串。

String text =
"This is the text to be searched " +
“for occurrences of the http:// pattern.”;

String patternString = “.http://.”;
Pattern pattern = Pattern.compile(patternString);
Matcher matcher = pattern.matcher(text);
//到此为止我们创建了一个 Pattern的实例对象 pattern。然后又通过这个正则表达式的 pattern的实例变量，创造了一个匹配引擎匹配器。 ====>我们可以使用匹配器做很多事情。

match()方法：
在这里插入图片描述
Matcher 的实例对象的 matches() 方法用于在文本中匹配正则表达式
没有要被传递的参数，因为之前我们创建正则表达式对象的时候传入了正则表达式字符串，而在创建别的Matcher对象的时候有传入了所需要比较的文本。

如果传递整体的文本匹配完整的正则表达式，matches() 方法返回true。否则返回false。

matches() 方法不能用于查找正则表达式多次出现，只可以在整体的情况下使用一次。

lookAt()方法：
在这里插入图片描述
lookingAt() 与matches() 方法类似，最大的不同是，lookingAt()方法对文本的开头匹配正则表达式；它不需要匹配整个区域

而matches() 对整个文本匹配正则表达式。

换句话说，如果正则表达式匹配文本开头而不匹配整个文本,lookingAt() 返回true,而matches() 返回false。示例：

String text =
"This is the text to be searched " +
“for occurrences of the http:// pattern.”;
String patternString = “This is the”;
Pattern pattern = Pattern.compile(patternString, Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(text);
System.out.println("lookingAt = " + matcher.lookingAt());
System.out.println("matches = " + matcher.matches());

上面的例子分别对文本开头和整个文本匹配正则表达式 “this is the”. 匹配文本开头的方法(lookingAt()) 返回true。

对整个文本匹配正则表达式的方法 (matches()) 返回false，因为整个文本包含多余的字符,而正则表达式要求文本精确匹配”this is the”,前后又不能有额外字符。

find() start() end()

//find() start() end()方法。
在这里插入图片描述

find() 方法用于在文本中查找出现的匹配的正则表达式，文本是创建Matcher时，通过 Pattern.matcher(text) 方法传入的。
如果在文本中多次匹配，find() 方法返回第一个，之后每次调用 find() 都会返回下一个。
---->以此来实现全局匹配。这个find（）方法的目的不是完全匹配，而是查找字符串中与模式匹配的一段字符串。也就是说传递的字符串中有很多子字符串跟这个模式匹配，
—>强调不是传递的字符串跟这个模式全部匹配。

//Matcher的实例对象调用find()方法，返回 boolean值。true表示有下一个匹配值 false表示没有下一匹配值。

//这个可是要注意了，并不是说让传递的文本整体跟最外层的正则表达式整体完全匹配的情况，而是要找到传递的文本中是否包含正则表达式所匹配的字符串，且找到起始位置。

start() 和 end() 返回每次匹配的字串在整个文本中的开始和结束位置。实际上, end() 返回的是字符串末尾的后一位，这样，可以在把 start() 和 end() 的返回值直接用在String.substring() 里。
//我们就可以找到传递文本中每一个与正则表达式匹配的字符串喽，且可以通过 start() 和 end()的返回值来拿到具体的字符串了。

String text =
"This is the text which is to be searched " +
“for occurrences of the word ‘is’.”;
String patternString = “is”;
Pattern pattern = Pattern.compile(patternString);
Matcher matcher = pattern.matcher(text);
int count = 0;
while(matcher.find()) {
count++;
System.out.println("found: " + count + " : " + matcher.start() + " - " + matcher.end());
}
这个例子在文本中找到模式 “is” 4次，输出如下:

found: 1 : 2 - 4
found: 2 : 5 - 7
found: 3 : 23 - 25
found: 4 : 70 - 72

group()方法：
在这里插入图片描述
使用group(int groupNo) 方法访问一个分组。一个正则表达式可以有多个分组。每个分组由一对括号标记。想要访问正则表达式中某分组匹配的文本，可以把分组编号传入 group(int groupNo)方法。

group(0) 表示整个正则表达式，要获得一个有括号标记的分组，分组编号应该从1开始计算
如果使用group(x) 指定要输出的分组的时候没有匹配项则输出 null。

//至此我们可以拿到传递字符串中与最外层的正则表达式匹配的字符串，且可以拿到这个匹配字符串的每个分组， ====> 我们可以通过稍微麻烦一些的办法来实现每个匹配字符串中每个分组的替代工作。

String text =
“John writes about this, and John Doe writes about that,” +
" and John Wayne writes about everything."
;
String patternString1 = "(John) (.+?) ";
Pattern pattern = Pattern.compile(patternString1);
Matcher matcher = pattern.matcher(text);
while(matcher.find()) {
System.out.println("found: " + matcher.group(1) +
" " + matcher.group(2));
}
注意代码中引用分组的方式。代码输出如下

found: John writes
found: John Doe
found: John Wayne

----->在使用正则表达式查找一个字符串中是否有匹配项的时候我们千万不可以在正则表达式中加上 ^ $ 这样的位置字符。

Matcher实例对象的 replaceAll() replaceFirst() 方法:

//replaceAll() 方法全部替换传递字符串中的跟正则表达式匹配得子字符串；

//replaceFirst() 只替换第一个匹配的。

//在处理之前，Matcher 会先重置。所以这里的匹配表达式从文本开头开始计算。

//这个匹配不是完全匹配，而是查找传递字符串中是否存在跟正则表达式匹配的项，如果存在那么就全部替换掉。注意：依然是不能够替换分组，替换的是与最外层正则表达式匹配的字符串。
---->但是我们可以解释 start() end()方法来替换分组。

示例如下
String text = “aabfooaabfooabfoob” ;
String patternString1 = “a*b”;
Pattern pattern = Pattern.compile(patternString1);
Matcher matcher = pattern.matcher(text);

	String replaceAll = matcher.replaceAll("-");
	System.out.println("replaceAll   = " + replaceAll);

	String replaceFirst = matcher.replaceFirst("-");
	System.out.println("replaceFirst = " + replaceFirst);

输出如下:
replaceAll = -foo-foo-foo-
replaceFirst = -fooaabfooabfoob

appendReplacement() appendTail() 方法:
在这里插入图片描述
appendReplacement() 和 appendTail() 方法用于替换输入文本中的字符串短语，同时把替换后的字符串附加到一个 StringBuffer 中。

被Matcher的实例对象调用。

当find() 方法找到一个匹配项时，可以调用 appendReplacement() 方法，这会导致输入字符串被增加到StringBuffer 中，而且匹配文本被替换。从上一个匹配文本结尾处开始，直到本次匹配文本会被拷贝【两次匹配之间的字符串会被拷贝，且匹配的内容会被第二个形式参数替换掉】。

---->：并不是传递字符串的完全匹配，而是全局字符串中查找与模式匹配的子字符串，然后替换，注意此时匹配模式匹配的是最外层的模式简而言之是正则表达式全部都匹配。

appendReplacement() 会记录拷贝StringBuffer 中的内容，可以持续调用find(),直到没有匹配项。

直到最后一个匹配项目，输入文本中剩余一部分没有拷贝到 StringBuffer.

这部分文本是从最后一个匹配项结尾，到文本末尾部分。通过调用 appendTail() 方法，可以把这部分内容拷贝到 StringBuffer 中.

我们是使用 Matcher的实例对象来调用的，结合 find()方法和 while()循环，来匹配替换和添加，执行所有的传递文本。

如果没有找到任何匹配项则 stringBuffer实例对象大小是 0 ；

String text =
“John writes about this, and John Doe writes about that,” +
" and John Wayne writes about everything."
;

String patternString1 = "((John) (.+?)) ";
Pattern pattern = Pattern.compile(patternString1);
Matcher matcher = pattern.matcher(text);
StringBuffer stringBuffer = new StringBuffer();

while(matcher.find()){
matcher.appendReplacement(stringBuffer, "Joe Blocks ");
System.out.println(stringBuffer.toString());
}
matcher.appendTail(stringBuffer);
System.out.println(stringBuffer.toString());

注意我们在while循环中调用appendReplacement() 方法。在循环完毕后调用appendTail()。代码输出如下:

Joe Blocks
Joe Blocks about this, and Joe Blocks
Joe Blocks about this, and Joe Blocks writes about that, and Joe Blocks
Joe Blocks about this, and Joe Blocks writes about that, and Joe Blocks
writes about everything.
在这里插入图片描述