java判断字符串是否是中文

思路

Java用的是Unicode 编码char 型变量的范围是0-65535 无符号的值,可以表示 65536个字符,基本上地球上的字符可被全部包括了

汉字基本集中在[19968,40869]之间,共有20901个汉字

unicode编码范围:
汉字:[0x4e00,0x9fa5](或十进制[19968,40869])
数字:[0x30,0x39](或十进制[48, 57])
小写字母:[0x61,0x7a](或十进制[97, 122])
大写字母:[0x41,0x5a](或十进制[65, 90])
/x3130-/x318F (韩文
/xAC00-/xD7A3 (韩文)
/u0800-/u4e00 (日文)
public static boolean isContainChinese(String str) throws EmptyException {
 
    if (StringUtils.isEmpty(str)) {
        throw new EmptyException("sms context is empty!");
    }
    Pattern p = Pattern.compile("[\u4E00-\u9FA5|\\!|\\,|\\。|\\(|\\)|\\《|\\》|\\“|\\”|\\?|\\:|\\;|\\【|\\】]");
    Matcher m = p.matcher(str);
    return m.find();
}

注:Pattern.compile("[\u4e00-\u9fa5]")只能检测出中文汉字不能检测中文标点

Python判断字符串是否是中文(utf-8编码)

不考虑中文标点的情况

		for ch in str:
            if u'\u4e00' <= ch <= u'\u9fff':
                language = "zh_CN"
                break

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值