java正则表达式(Regular Expression)--字符串处理工具

最新推荐文章于 2022-04-17 20:01:38 发布

Mr_xiaoshulin

最新推荐文章于 2022-04-17 20:01:38 发布

阅读量412

点赞数

分类专栏： java 文章标签： java正则表达式

本文链接：https://blog.csdn.net/Mr_xiaoshulin/article/details/85110011

版权

java 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在java编程中对于字符串的各种处理(查找，截取，匹配则，转换)是非常常用的，除了String类提供的一些方法之外，正则表达是一种便捷的字符串处理工具，其可以更为方便的进行字符串的匹配，查找及替换，让我们写出更为简洁高效的代码，因此值得我们学习！
1) 在java Api中涉及到的相关类为：java.lang.String/ java.util.regex.Pattern/ java.util.regex.Matcher；其中，Pattern用于将正则表达式编译为一种特定的模式；Matcher是将某种模式与某些字符串匹配后的结果，这个结果可能有多个；
例如：
   public class testCode{
       public static void main(String[] args) {
           //"[a-z]{3}"是指匹配小写字母a-z中的三个字符,使用compile()方法将正则表达式编译为一种模式
           Pattern pt = Pattern.compile("[a-z]{3}");
           //使用matcher()方法进行匹配
           Matcher mt = pt.matcher("fgh");
           //使用matches()方法查看是否匹配，为true,表示字符串用正则表达式相匹配
           m.matches();
       }
   }
上边的过程也可以使用一句代码来表示："fgh".matches("[a-z]{3}");虽然简洁，一般不建议使用；

2) 正则表达式的基本语法符号：
(1) . 表示1个字符；
* 表示0个或者多个字符-----例如：a*表示a出现0次或者出现多次;
+ 表示1个或者多个字符-----例如：a+表示a出现1次或者出现多次；
？表示0个或者1个字符-----例如：a?表示a出现0次或者出现1次；
(2) {} 表示次数限定符
{n} 表示正好出现n次；
{n,} 表示至少出现n次；
{n,m} 表示至少出现n次,最好出现m次；

(3) [ ] 表示范围限定符，一个中括号只能匹配一个字符，例如"[abc]"表示匹配abc三个字符中的一个；
(4) ^ 表示取反限定符，例如[^abc]表示匹配除abc三个字符以外的其它字符；
(5) 中括号中的-表示范围，例如[a-zA-Z]表示匹配所有的大小写字母；
(6) \d 表示[0-9]之间的数字字符；
\D 表示除了[0-9]之外的其它字符；
\s 表示空字符(空格、回车、Tab、制表符)
\S 表示非空字符
\w 表示[a-zA-Z_0-9]大小写字符，下划线，0-9之间的数字
\W 表示除了[a-zA-Z_0-9]之外的字符；

注意：在java中一个\表示转义字符，\\\\表示java中的反斜线；
(7) 小括号()表示分组，有几个括号就有几个分组，可以根据小括号的左括号来确定时第几个分组，其作用是可以使用group(i)方法来分别输出匹配各个分组的匹配结果；

3) 边界匹配
(1) ^ 在中括号里面表示取反，在中括号外面表示输入的一行的开头-----"^h.*"表示以h开头且后面有0个或者多个字符的字符串。
(2) $ 表示行的结尾，".*r$" 表示前面有0个或者多个字符且以r结尾的字符串；
(3) \b 表示空字符串边界；\B 表示非空字符边界

4) 量化(quantifies)修饰符：是指在原先修饰符的基础上使用？或者+来表示不同的度量标准；
   贪婪模式----a?/a*/a+/a{n}/a{n,}/a{n,m}等，即一般的正则表示都是贪婪模式；
   懒惰模式----a??/a*?/a+?/a{n}?/a{n,}?/a{n,m}?等，可以看到是在原先正则表达式的基础上加了？；
   独占模式----a?+/a*+/a++/a{n}+/a{n,}+/a{n,m}+等，可以看到是在原先正则表达式的基础上加了+；
这几种模式分别表示什么意思呢，使用一个例子进行说明：
Pattern p = Pattern.compile("(.{3,10})[0-9]");
   String s = "aaaa5bbbb6";
   Matcher m = p.matcher(s);
   if(m.find()) {
       //start()匹配的起始位置、end()匹配的结束位置
       m.start() + "-" + m.end();
   }
输出结果：0-10
   过程：因为是贪婪模式，所以一开始就读入10个字符(aaaa5bbbb6)，没有最后一个[0-9]之间字符，不匹配，然后再读入9个字符(aaaa5bbbb)，后面在读入一个(6)发现匹配，则输出为0-10；

   将正则表达式改为"(.{3,10}?)[0-9]"
输出结果为0-5
过程：因为是懒惰模式，开始第一个分组读入3个字符(aaa)，后面在读入一个(a),不匹配，然后第一个分组在读入4个字符（aaaa）,后面在读入一个（5）
   发现匹配，结束，输出为0-5；

   将正则表达式改为"(.{3,10}+)[0-9]"
输出结果为空
过程：因为是独占模式，开始第一个分组读入10个字符(aaaa5bbbb6)，后面在读入一个的时候没有了,此时第一个分组读入的并不会减少，所有直接不匹配；不匹配，输出为空

5）matches() /find() /lookingAt() /group() 方法
   (1) matches匹配的是整个字符串；
   (2) find是找一个与模式相匹配的字符串子串，而且在找到后，如果在继续调用find方法，在会在剩余的子串中进行匹配；
注意：如果matches方法与find方法一起使用，则存在影响，如果使用matches方法在匹配时没有找到，则在调用find方法时，
   将从不匹配的下一个字符开始寻找子串进行匹配；
   (3) lookingAt是从字符串的开头开始进行模式匹配；
   (4) group方法是用来存放匹配结果的容器，如果正则表达式中使用了分组(), 则可以使用group(i)依次输出第i个分组的匹配结果； group()是输出所有的匹配结果；

Mr_xiaoshulin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java正则表达式(Regular Expression)--字符串处理工具

在java编程中对于字符串的各种处理(查找，截取，匹配则，转换)是非常常用的，除了String类提供的一些方法之外，正则表达是一种便捷的字符串处理工具，其可以更为方便的进行字符串的匹配，查找及替换，让我们写出更为简洁高效的代码，因此值得我们学习！1) 在java Api中涉及到的相关类为：java.lang.String/ java.util.regex.Pattern/ java.util.re...
复制链接

扫一扫