我的Java日记--Char

最新推荐文章于 2022-05-17 15:25:43 发布

ralphsage

最新推荐文章于 2022-05-17 15:25:43 发布

阅读量3.7k

点赞数

分类专栏： Java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ralphsage/article/details/9466407

版权

Java 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Java语言中的每一个 char 类型变量均为16-bit，对应于UTF-16编码中的一个 code unit（简称为CU）——即Java的 Char 类型变量完全遵循UTF-16编码规范，编码规范的详细解读见收藏夹中的《彻底搞懂字符编码》一文。
        因为1个CU可能对应一个Unicode表中的一个code point（简称CP，一个cp对应于一个真正的unicode字符），也可能仅仅只是表示一个CP的两个CU中的一个，所以Java中的一个 Char 类型变量并不一定就是代表一个字符。
        在Java中表示一个char常量的时候，可以使用\u转义字符来表示一个CU——这里需要注意的是，使用\u来表示一个char常量的时候，必须使用四位的十六进制数。例如 '\u0012'，这样才符合一个char类型变量必须为16-bit的要求。如果写成 '\u12'，Java编译器将报错。而对于Unicode表中的supplement characters（即CP值大于0xFFFF），例如 U+12345，我们是不能直接用 '\u12345' 这样的形式来表示的，而必须遵循UTF-16编码规范，写成 '\uD808\uDF45'
        String对象的length()方法返回的是CU的个数，而codePointCount()方法返回的才是CP的格式，二者不一定相等。类似的charAt()方法中的index参数也是针对CU而言的，而codePoint()方法的index参数是针对CP而言的，后者index需要首先通过String对象的offsetByCodePoint()方法才能获取。offsetByCodePoints(int index, int codePointOffset) 两个参数的含义个人理解为：以第index个CU为起点的第 codePointOffset 个CP的第一个CU在String对象中的index。例如：String sentence = "\uD835\uDD6B\uD836\uDD6Cqq";
- sentence.offsetByCodePoints(1, 0) 是指以第1个CU（\uDD6B）为起点的第0个CP，因为\uDD6B本身不是以D8开头的，所以\uDD6B自身就被当做一个独立的CP，因此返回值也就是1了；
- sentence.offsetByCodePoints(1, 1) 是指以第1个CU（\uDD6B）为起点的第1个CP，即 '\uD836\uDD6C' 这一个code point，因为这个CP是由两个CU构成的，所以返回值就是 \uD836 这个CU的index，即2
- sentence.offsetByCodePoints(2, 0)是指以第2个CU（\uD836）为起点的第0个CP，因为 \uD836 本身就是以D8开头的，所以对应的CP仍然是 '\uD836\uDD6C' 这一个code point，故而其返回值与 sentence.offsetByCodePoints(1, 1) 是一样的2
- sentence.offsetByCodePoints(1, 2)是指以第1个CU（\uDD6B）为起点的第2个CP，对应的是'q'这个code point了，这个CP本身仅仅对应一个CU，所以返回值就是4了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。