Java中码点和代码单元

最新推荐文章于 2022-03-19 23:41:36 发布

hello_world_w

最新推荐文章于 2022-03-19 23:41:36 发布

阅读量205

点赞数 2

原文链接：https://blog.csdn.net/diehuang3426/article/details/83422309

版权

本文介绍了Java中码点和代码单元的概念，它们与Unicode编码的关系。码点是Unicode编码表中字符对应的值，而代码单元是Java中表示Unicode字符的方式。由于Unicode的扩展，辅助字符可能需要两个代码单元表示。通过代码示例展示了如何计算字符串中的码点数，并演示了如何将码点转换为字符串。理解这些概念对于处理多语言字符至关重要。

摘要由CSDN通过智能技术生成

Java中码点和代码单元

前言

码点和代码单元这两个概念还是在《Java核心技术卷一》发现的，这也是我看过这本书里面前五章中比较有用的一个知识点（PS：毕竟Java开发都一年了，基础应用都差不多了），以前都没听过。

概念

在介绍这个概念之前，建议大家先去看看一些编码方面的知识。《编码格式简介（ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE）》，这篇文章讲的挺好。每个国都有把自己的语言编码，于是出现了各种各样的编码(美国的ASCII，中国的GBK，俄罗斯的KOI-8等），如果你不安装相应的编码，就无法解释相应编码想表达的内容。最后 ISO 一起创造了一种编码 UNICODE ，这种编码非常大，大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统，无论是全球哪种文字，只需要保存文件的时候，保存成 UNICODE 编码就可以被其他电脑正常解释。
而在设计Java时，当时的Unicode才发布1.0版本，字符连65536代码值一半都不到，为了方便后面增加，Java使用了16位的Unicode字符集。但是没想到，随着计算机的普及，各国计算机的发展，16位也放不下人类的集体文化财富。
码点是指一个编码表中的某个字符对应的代码值。Unicode的码点分为17个代码级别，第一个级别是基本的多语言级别，码点从U+0000——U+FFFF，其余的16个级别从U+10000——U+10FFFF，其中包括一些辅助字符。
基本的多语言级别，每个字符用16位表示代码单元，而辅助字符采用连续的一对连续代码单元进行编码。

代码实例

下面hi𝕆中的𝕆实际上是是一个辅助字符，它实际上占用了两个char来保存，这个字符串中总共为4个char，3个代码点。

    public static void main(String[] args) {
        String hello = "hi𝕆";
        System.out.println(hello.length());//4
        System.out.println(hello.codePointCount(0, hello.length()));//3
    }

   
   
   
   1
2
3
4
5

下列代码中显示了每个char的16进制和每个代码单元的16进制。

    public static void main(String[] args) {
        String hello = "hi𝕆";
        int length = hello.length();
        for(int i=0;i<length;i++) {
            char charAt = hello.charAt(i);
            System.out.println(Integer.toHexString(charAt));
        }
        int codePointCount = hello.codePointCount(0, length);
        for(int i=0;i<codePointCount;i++) {
            int index = hello.offsetByCodePoints(0,i);
            int charAt = hello.codePointAt(index);
            System.out.println(Integer.toHexString(charAt));
        }
    }

   
   
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14

分为4个代码单元

3个码点

而码点转化为字符串则需要使用一些特殊的API，比如：
判读是不是一个码点，上文的d835或者dd46肯定不是

Character.isValidCodePoint(codePoint)

   
   
   
   1

码点转化为字符串：

char[] chars = Character.toChars(0x1d546);
String str = new String(chars);
System.out.println(str);//𝕆

   
   
   
   1
2
3

hello_world_w

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫