java字符串由char值序列组成,char的数据类型是一个采用Unicode码点的代码单元。
即:char数据类型是一个代码单元
任意Unicode字符都是一个码点,大多数常用的Unicode码点由一个char代码单元组成,辅助字符码点由两个char代码单元组成。
代码单元的数量和码点的数量
1、代码单元数量(str.length()不是实际的字符串长度:辅助字符算两个):
String str="hello";
int n=str.length();
System.out.println(n);
2、码点数量(实际的字符的个数,辅助字符算一个):
int m=str.codePointCount(0,str.length());
System.out.println(m);
codePointCount的用法:
codePointCount
int codePointCount(int beginIndex , int endIndex)
返回此 String 的指定文本范围中的 Unicode 代码点数。文本范围始于指定的 beginIndex,一直到索引 endIndex - 1 处的 char。因此,该文本范围的长度(用 char 表示)是 endIndex-beginIndex。该文本范围内每个未配对的代理项计为一个代码点。
常见的求整个字符串长度的用法:
String str="hello";
int n=str.codePointCount(0, str.length());
System.out.println(n);