Java中码点和代码单元

Java中码点和代码单元

前言

码点和代码单元这两个概念还是在《Java核心技术 卷一》发现的,这也是我看过这本书里面前五章中比较有用的一个知识点(PS:毕竟Java开发都一年了,基础应用都差不多了),以前都没听过。

概念

在介绍这个概念之前,建议大家先去看看一些编码方面的知识。《编码格式简介(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)》,这篇文章讲的挺好。每个国都有把自己的语言编码,于是出现了各种各样的编码(美国的ASCII,中国的GBK,俄罗斯的KOI-8等),如果你不安装相应的编码,就无法解释相应编码想表达的内容。最后 ISO 一起创造了一种编码 UNICODE ,这种编码非常大,大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统,无论是全球哪种文字,只需要保存文件的时候,保存成 UNICODE 编码就可以被其他电脑正常解释。
而在设计Java时,当时的Unicode才发布1.0版本,字符连65536代码值一半都不到,为了方便后面增加,Java使用了16位的Unicode字符集。但是没想到,随着计算机的普及,各国计算机的发展,16位也放不下人类的集体文化财富。
码点是指一个编码表中的某个字符对应的代码值。Unicode的码点分为17个代码级别,第一个级别是基本的多语言级别,码点从U+0000——U+FFFF,其余的16个级别从U+10000——U+10FFFF,其中包括一些辅助字符。
基本的多语言级别,每个字符用16位表示代码单元,而辅助字符采用连续的一对连续代码单元进行编码。

代码实例

下面hi𝕆中的𝕆实际上是是一个辅助字符,它实际上占用了两个char来保存,这个字符串中总共为4个char,3个代码点。

    public static void main(String[] args) {
        String hello = "hi𝕆";
        System.out.println(hello.length());//4
        System.out.println(hello.codePointCount(0, hello.length()));//3
    }

下列代码中显示了每个char的16进制和每个代码单元的16进制。

    public static void main(String[] args) {
        String hello = "hi𝕆";
        int length = hello.length();
        for(int i=0;i<length;i++) {
            char charAt = hello.charAt(i);
            System.out.println(Integer.toHexString(charAt));
        }
        int codePointCount = hello.codePointCount(0, length);
        for(int i=0;i<codePointCount;i++) {
            int index = hello.offsetByCodePoints(0,i);
            int charAt = hello.codePointAt(index);
            System.out.println(Integer.toHexString(charAt));
        }
    }

分为4个代码单元

68
69
d835
dd46

3个码点

68
69
1d546

而码点转化为字符串则需要使用一些特殊的API,比如:
判读是不是一个码点,上文的d835或者dd46肯定不是

Character.isValidCodePoint(codePoint)

码点转化为字符串:

char[] chars = Character.toChars(0x1d546);
String str = new String(chars);
System.out.println(str);//𝕆
### Java 静态属性的存储机制及其与元空间的关系 在 Java 中,静态属性属于类级别的成员,它们在整个应用程序生命周期中只有一份副本,并由该类的所有实例共享。关于静态属性的具体存储位置以及其与元空间之间的关系,可以从以下几个方面来分析: #### 1. **静态属性的存储** 静态属性通常被存储在方法区(Method Area)。根据 JVM 规范,方法区用于存储已被虚拟机加载的类信息、常量池、静态变量以及其他编译时常量[^1]。 然而,在 JDK 8 及更高版本中,由于永久代(Permanent Generation)的概念已经被移除并替换为元空间(Metaspace),因此静态属性的实际存储位置发生了变化。具体而言: - 在 JDK 7 或更早版本中,静态属性位于永久代(PermGen Space)。 - 自 JDK 8 开始,永久代被废弃,取而代之的是元空间(Metaspace)。尽管如此,静态属性仍然归属于方法区的一部分,只不过现在的方法区实现依赖于本地内存而非固定大小的空间[^4]。 #### 2. **元空间的作用** 元空间的主要职责是存储类的元数据信息,例如类结构定义、字段描述符、方法字节等内容。虽然元空间本身不直接负责存储静态变量,但它间接支持了整个方法区的功能运作。换句话说,静态属性依然存在于方法区内,只是元空间作为方法区的一种新实现形式提供了更大的灵活性动态扩展能力[^3]。 #### 3. **垃圾回收的影响** 对于静态属性而言,只要对应的类未被卸载,则这些属性就不会被垃圾回收器清理掉。即使某些对象进入到了老年代(Tenured Generation),或者经历了多次 Minor GC Major GC 过程,只要还有对该类的有效引用存在,那么它的静态成员也会一直保留下来。 以下是有关堆分区的一个简单代示例展示如何操作静态变量: ```java public class StaticExample { public static int counter = 0; public static void main(String[] args) { System.out.println(StaticExample.counter); // 输出初始值 0 incrementCounter(); System.out.println(StaticExample.counter); // 输出更新后的值 1 } private static void incrementCounter() { StaticExample.counter++; } } ``` 通过上述例子可以看出,`counter` 是一个典型的静态整数型变量,它会在首次加载 `StaticExample` 类时初始化为零,并且无论创建多少个此类实例,这个数值都保持全局一致性直到程序结束或显式修改为止。 --- ###
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值