java代码点_Java 之码点与代码单元

Java 之码点与代码单元

一个码点是信息原子的单元。文本是一连串的码点。每一个码点是一个由标准的Unicode编码规定的数字。

而代码单元是用于存储码点的单位,一个代码单元可以存储一个码点或码点的一部分。

在Java中,String是由一串char排列而成。而char数据类型是一个采用UTF-16编码表示Unicode码点的代码单元。大多数的常用Unicode字符使用一个代码单元就可以表示出来,但一部分辅助字符则需要一对代码单元才能表示出来。

在String中,length本质上是对String的代码单元的个数进行计数,由于一部分双代码单元的辅助字符存在,会有极小部分情况下length返回的长度并不是字符串的实际长度。

以“?”为例:

public class demo2 {

public static void main(String[] args) {

String string = "\uD835\uDD46";

System.out.println(string + " " + string.length());

}

}

7a2bb15c5be71249375d9e012d8fed9a.png

可以看到,虽然字符串中只有一个字符存在,但字符串的长度却返回为2。

如何解决这个问题呢?

要想得到实际的长度,即码点数量,我们可以采用如下代码:

int cpCount = string.codePointCount(0, string.length())

两个参数的含义分别为计数的起始位置以及结束位置(前闭后开)。

同理,如果我们调用charAt()函数,将返回的是位置n的代码单元,而不是码点。

如果需要获取第i位置的码点,可以采用以下代码:

int cp = string.codePointAt(string.offsetByCodePoints(0, i))

返回此 String 中从给定的 index 处偏移 codePointOffset 个代码点的索引。

如果想要遍历整个字符串并获得字符串的所有码点,可以使用如下代码:

int[] ch = string.codePoints().toArray();

for (int ch1: ch

) {

System.out.println(ch1);

}

反之,要把一个码点数组转换成一个字符串,这可以使用如下代码;

String str = new String(codePoints, 0, codePoints.length)

总之,我们可以看到使用char时会产生一些问题,因此,我们尽量不要使用char类型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值