java中文标点正则表达式用法_中文字符和中文标点符号的正则表达式

Rosa96

于 2021-02-25 07:03:46 发布

阅读量2.4k

点赞数

文章标签： java中文标点正则表达式用法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31318441/article/details/114616886

版权

匹配中文标点符号： String str="[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]" 该表达式可以识别出：。；，： “ ”( ) 、？《》这些标点符号。匹配中文汉字 String str="[\u4e00-\u9fa5]"; 该表达式可以识别出任何汉字。

\w匹配的仅仅是中文，数字，字母，对于国人来讲，仅匹配中文时常会用到，见下复制代码代码如下:

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

或许你也需要匹配双字节字符，中文也是双字节的字符复制代码代码如下:

匹配双字节字符(包括汉字在内)：[^\x00-\xff]

注：可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1)

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.commons.lang3.StringUtils;

public class Test

{

public static void main(String[] args)

{

// String regEx = "[1]?";

String words = "にほんご(かな)ニホンゴ(カナ)1sdfasdfasdf您的说法撒的发生的阿斯顿发斯蒂芬dsdddd#￥%@#%￥@#%￥";

String result = patternZh(words);

System.out.println(result);

}

private static String patternZh(String words)

{

String regEx = "[\u4e00-\u9fa5]?"; // 匹配中文字符的正则表达式

// String regEx = "[^\\x00-\\xff]?"; //匹配双字节字符(包括汉字在内)

Pattern pattern = Pattern.compile(regEx,Pattern.UNICODE_CASE | Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(words);

StringBuffer strBuf = new StringBuffer(0);

while (matcher.find())

{

if (StringUtils.isNotBlank(matcher.group()))

{

strBuf.append(matcher.group());

}

}

return strBuf.toString();

}

}

相关文章

总结

如果觉得编程之家网站内容还不错，欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

如您喜欢交流学习经验，点击链接加入交流1群：1065694478(已满)交流2群：163560250

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。