UTF-8中文编码的范围: u4e00-u9fa5
过滤中文汉字:
@Test public void removeChinese() { String regex = "[\\u4e00-\\u9fa5]"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher("abc#$中文测试"); System.out.println(matcher.replaceAll("").trim()); }
测试结果:
过滤中文所有符号:
@Test public void removeChineseSymbol() { String regex = "[~!@#¥%……&*()——+{}:”|?》《、。,;‘、【】]"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher("abc#$中{}【】、。文测试"); System.out.println(matcher.replaceAll("").trim()); }
测试结果:
总之,写好正则后,使用
package java.util.regex;包下的类就可以解决;