在Java语言中,默认使用Unicode编码方式,每个字符占用两个字节,因此可以用来存储中文。虽然String是由char所组成的,但是它采用了更加灵活的方式来存储,即英文占用一个字符,中文占用两个字符,采用这种存储的方式可以减少所需要的内存,提高存储效率。
1. 判断字符串中是否包含中文字符。(注意在UTF-8环境下和GBK环境下,中文 占的字节数不一样,在UTF-8环境下中文占三个字节,而在GBK环境下,中文字符占2个字节)
String string = "你好abc";
System.out.println(string.getBytes().length); //字节长度
System.out.println(string.length()); //字符串长度
System.out.println(string.getBytes().length == string.length()); //字节长度不等于字符串
结果为:
7
5
false
2. 判断字符是否为中文字符
char ch = '中';
System.out.println(String.valueOf(ch).matches("[\u4e00-\u9fa5]"));
结果为 true
[\u4e00-\u9fa5] 这个正则中的\u4e00 和\u9fa5 是unicode编码,正好对应对应中文编码的开始和结束的两个值,所以该正则表达式可以判断是否是中文字符编码。