文章目录
1.码点与代码单元
1.1 我们是否真的理解char?
在我们通常的认知中,char用来表示字符,一个char占两个字节,两个字节可以表示一个字符,所以一个char可以表示一个字符,这似乎没什么毛病。
但是随着时间的推移,技术不断的发展,有些Unicode字符可以用一个char值表示,但另外有些Unicode字符则需要用超过两个字节才可以表示,即一些Unicode需要用两个char表示。
这时问题就出现了,一个Unicode字符是否等价一个char字符?
1.2 什么是码点和代码单元?
1.2.1 Java字符串由char值序列组成
其实在Java中String类中维护的是一个char类型的数组,就是说字符串底层上来说还是char序列,也就是字符序列。
1.2.2 char指的是代码单元
char数据类型是一个采用UTF-16编码表示Unicode码点的代码单元,故从上面可知,最常用的Unicode字符使用一个代码单元就可以表示,而辅助字符则需要一对代码单元表示即用两个char表示。
所以代码单元指的是一个char字符,码点指的是实际的一个具有现实意义的字符。
我们可以这样认为:一个char字符我们可以称之为代码单元,一个Unicode字符我们称之为码点。
下面我们通过下面代码来理解:
public static void test1(){
//🍷Hello 需要7个char字符进行存储,其中🍷占两个
String test="🍷Hello";
//得到的是代码单元的数量 7 🍷占两个代码单元(两个char)
System.out.println(test.length());
// String.codePointCount用来计算字符串中的真实Unicode的数量,也就是码点数量
// 所以它的结果应该是6
System.out.println(test.codePointCount(0,test.length()));
}
1.3 String中相关的操作方法
1.3.1 charAt(n);
将返回位置n的代码单元 n介于0~test.length()-1之间
public static void test2(){
//🍷Hello 需要7个char字符进行存储,其中🍷占两个
String test="🍷Hello";
System.out.println(test.charAt(0));
System.out.println(test.charAt(2));
}
可以看到,charAt无法正确获取字符串中的码点。
1.3.2 如果我们想要得到第i个码点
我们可以:
int index = test.offsetByCodePoints(0,i);
int cp = test.codePointAt(index);
例子
public static void test3(){
//🍷Hello 需要7个char字符进行存储,其中🍷占两个
String test="🍷Hello";
int index = test.offsetByCodePoints(0,0);
int first = test.charAt(0);
int second = test.charAt(1);
System.out.println(first);
System.out.println(second);
String res = ""+(char)first+(char)second;
System.out.println(res);
int cp = test.codePointAt(index);
System.out.println(cp);
}
所以说在字符串中如果有一些非常规字符的话,使用charAt会导致结果不正确。
1.3.3 如果想要遍历一个字符串
对于普通的字符串,我们可以使用charAt来遍历(代码单元遍历)。
例如:
public static void test4(){
String test="Hello";
for(int i=0;i<test.length();i++){
System.out.print(test.charAt(i));
}
}
对于有非常规字符的字符串,我们就只能遍历码点来实现了。
例如:
/**
* 遍历带有码点的字符串
*/
public static void test5(){
String test="🍷Hello";
for(int i=0;i<test.length();) {
int[] cp = new int[1];
cp[0] = test.codePointAt(i);
if(Character.isSupplementaryCodePoint(cp[0])) {
i+=2;
System.out.print(new String(cp,0,1));
} else {
i++;
System.out.print((char)cp[0]);
}
}
}
还有一种方法:
public static void test6(){
String test="🍷Hello";
int [] codePoints = test.codePoints().toArray();
for(int i=0;i<codePoints.length;i++){
if(Character.isSupplementaryCodePoint(codePoints[i])){
System.out.print(new String(new int[]{codePoints[i]},0,1));
}else{
System.out.print((char)codePoints[i]);
}
}
}
1.3.4 将码点数组转为字符串
反之,如果我们要把码点数组转换成一个字符串我们可以
/**
* 码点数组转为字符串
*/
public static void test7(){
String test="🍷Hello";
int [] codePoints=test.codePoints().toArray();
//错误的转换方式
for(int i=0;i<codePoints.length;i++){
System.out.print((char)codePoints[i]);
}
System.out.println();
//将码点数组转换成字符串
String str=new String(codePoints,0,codePoints.length);
System.out.println(str);
}
总结:在做字符串操作的时候一定要注意代码单元与码点之间的区别。
2 代码地址
Java基础学习/src/main/java/Progress/exa34 · 严家豆/Study - 码云 - 开源中国 (gitee.com)