普遍的写法
private static final Pattern CHINESE_XINJIANG_PATTERN =
Pattern.compile("^[\u4e00-\u9fa5.·]{0,}$");
生僻字
在开发上线之后,发现中国汉字博大精深,有一些汉字比较有争议,比如被现代汉语词典去掉了,或者编码有问题,没有在该正则内的,都无法匹配上面的正则,下面是我们在生产环境遇到的一些生僻字,分享给大家。
㛃
/u36c3
䶮
/u4DAE
那么加上这两个字的正则就是
private static final Pattern CHINESE_XINJIANG_PATTERN =
Pattern.compile("^[\u4e00-\u9fa5.·\u36c3\u4DAE]{0,}$");
如果后续有遇到生僻字的话,会及时更新哦~~希望大家多多关注