java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍

最新推荐文章于 2023-05-01 12:15:00 发布

老鼠拧刀满街找猫

最新推荐文章于 2023-05-01 12:15:00 发布

阅读量1.5k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：正则表达式 java 文章标签： java 正则表达式 POSIX字符类

本文链接：https://blog.csdn.net/linbilin_/article/details/61027868

正则表达式同时被 2 个专栏收录

28 篇文章

订阅专栏

java

26 篇文章

订阅专栏

本文介绍了一种在Java中使用POSIX字符类简化文本中英文半角标点符号匹配的方法，并对比了传统转义字符写法与POSIX字符类写法的优劣。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假如现在有一个需求，要你用java语言来匹配出一个文本里面的所有（英文半角）标点符号，你会怎么写呢？我想大多数人应该是把这些符号都罗列出来，

如：

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

但[!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~]这样写需要转义一下，

结果为：

[-!"\#\$%&'()*+,./:;<=>?@\[\\\]\^_`\{\|\}~]

然后写到java代码后，有需要转义一次，

变为：

[-!\"\\#\\$%&'()*+,./:;<=>?@\\[\\\\\\]\\^_`\\{\\|\\}~]

这样的代码，细思极恐。

我们先来用java代码验证一下，这个长长的正则能不能用

String str="1~2-6,C#,1+2=3;@qq.com2^3functon(){}";
		String regex="[-!\"\\#\\$%&'()*+,./:;<=>?@\\[\\\\\\]\\^_`\\{\\|\\}~]";
		Matcher m=Pattern.compile(regex).matcher(str);
		while(m.find()){
			System.out.print(m.group());
		}

输出结果：

~-,#,+=;@.^(){}

很欣慰，正则应该是没错的。但这样的正则看起来挺反胃的，那么有没有简洁的写法呢？答案是有的，可以利用POSIX字符类来实现，正则为：\p{Punct}

String str="1~2-6,C#,1+2=3;@qq.com2^3functon(){}";
		String regex="\\p{Punct}";
		Matcher m=Pattern.compile(regex).matcher(str);
		while(m.find()){
			System.out.print(m.group());
		}

输出结果：

~-,#,+=;@.^(){}

简直了，是不是对正则又燃起了希望之火，这就是在恰当的时候用POSIX字符类的好处。虽然平时比较少运用POSIX字符类的写法，但在恰当的时机运用起来就会有一种一鸣惊人的感觉。