34. Java字符串之码点和代码单元

1.码点与代码单元

1.1 我们是否真的理解char?

在我们通常的认知中,char用来表示字符,一个char占两个字节,两个字节可以表示一个字符,所以一个char可以表示一个字符,这似乎没什么毛病。
但是随着时间的推移,技术不断的发展,有些Unicode字符可以用一个char值表示,但另外有些Unicode字符则需要用超过两个字节才可以表示,即一些Unicode需要用两个char表示。
这时问题就出现了,一个Unicode字符是否等价一个char字符?

1.2 什么是码点和代码单元?

1.2.1 Java字符串由char值序列组成

其实在Java中String类中维护的是一个char类型的数组,就是说字符串底层上来说还是char序列,也就是字符序列。

1.2.2 char指的是代码单元

char数据类型是一个采用UTF-16编码表示Unicode码点的代码单元,故从上面可知,最常用的Unicode字符使用一个代码单元就可以表示,而辅助字符则需要一对代码单元表示即用两个char表示。

所以代码单元指的是一个char字符,码点指的是实际的一个具有现实意义的字符。
我们可以这样认为:一个char字符我们可以称之为代码单元,一个Unicode字符我们称之为码点。

下面我们通过下面代码来理解:

public static void test1(){
    //🍷Hello 需要7个char字符进行存储,其中🍷占两个
    String test="🍷Hello";
    //得到的是代码单元的数量 7 🍷占两个代码单元(两个char)
    System.out.println(test.length());
    // String.codePointCount用来计算字符串中的真实Unicode的数量,也就是码点数量
    // 所以它的结果应该是6
    System.out.println(test.codePointCount(0,test.length()));
}

在这里插入图片描述

1.3 String中相关的操作方法

1.3.1 charAt(n);

将返回位置n的代码单元 n介于0~test.length()-1之间

public static void test2(){
    //🍷Hello 需要7个char字符进行存储,其中🍷占两个
    String test="🍷Hello";
    System.out.println(test.charAt(0));
    System.out.println(test.charAt(2));
}

在这里插入图片描述

可以看到,charAt无法正确获取字符串中的码点。

1.3.2 如果我们想要得到第i个码点

我们可以:
int index = test.offsetByCodePoints(0,i);
int cp = test.codePointAt(index);

例子

public static void test3(){
    //🍷Hello 需要7个char字符进行存储,其中🍷占两个
    String test="🍷Hello";
    int index = test.offsetByCodePoints(0,0);
    int first = test.charAt(0);
    int second = test.charAt(1);
    System.out.println(first);
    System.out.println(second);
    String res = ""+(char)first+(char)second;
    System.out.println(res);
    int cp = test.codePointAt(index);
    System.out.println(cp);
}

在这里插入图片描述

所以说在字符串中如果有一些非常规字符的话,使用charAt会导致结果不正确。

1.3.3 如果想要遍历一个字符串

对于普通的字符串,我们可以使用charAt来遍历(代码单元遍历)。
例如:

public static void test4(){
    String test="Hello";
    for(int i=0;i<test.length();i++){
        System.out.print(test.charAt(i));
    }
}

在这里插入图片描述

对于有非常规字符的字符串,我们就只能遍历码点来实现了。
例如:

/**
 * 遍历带有码点的字符串
 */
public static void test5(){
    String test="🍷Hello";
    for(int i=0;i<test.length();) {
        int[] cp = new int[1];
        cp[0] =  test.codePointAt(i);
        if(Character.isSupplementaryCodePoint(cp[0])) {
            i+=2;
            System.out.print(new String(cp,0,1));
        } else {
            i++;
            System.out.print((char)cp[0]);
        }

    }
}

在这里插入图片描述

还有一种方法:

public static void test6(){
    String test="🍷Hello";
    int [] codePoints = test.codePoints().toArray();
    for(int i=0;i<codePoints.length;i++){
        if(Character.isSupplementaryCodePoint(codePoints[i])){
            System.out.print(new String(new int[]{codePoints[i]},0,1));
        }else{
            System.out.print((char)codePoints[i]);
        }

    }
}

在这里插入图片描述

1.3.4 将码点数组转为字符串

反之,如果我们要把码点数组转换成一个字符串我们可以

/**
 * 码点数组转为字符串
 */
public static void test7(){
    String test="🍷Hello";

    int [] codePoints=test.codePoints().toArray();
    //错误的转换方式
    for(int i=0;i<codePoints.length;i++){
        System.out.print((char)codePoints[i]);
    }
    System.out.println();
    //将码点数组转换成字符串
    String str=new String(codePoints,0,codePoints.length);
    System.out.println(str);
}

在这里插入图片描述

总结:在做字符串操作的时候一定要注意代码单元与码点之间的区别。

2 代码地址

Java基础学习/src/main/java/Progress/exa34 · 严家豆/Study - 码云 - 开源中国 (gitee.com)

  • 13
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员小牧之

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值