字符简论

最新推荐文章于 2019-11-21 08:18:08 发布

J_HanLi

最新推荐文章于 2019-11-21 08:18:08 发布

阅读量2.3k

点赞数 1

分类专栏： Java基础文章标签：字符

本文链接：https://blog.csdn.net/weixin_37501050/article/details/78204225

版权

Java基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 字符种类

字符主要包括以下几种类型：

数字类型，如1、2、3等。

字符类型，如a、b、c等。

特殊字符，如#、$、%、^、&等

不可见字符，如\n（换行符）、\r（回车符）、\t（Tab字符）等。

【注意】\n（换行符）和\r（回车符）在windows系统中没有什么区别，都可以当做回车符。但是在linux系统中则是两种效果。在linux系统中，\n表示换到下一行，却不会回到行首；而\r表示光标回到行首，但仍然在本行。

2 JVM字符编码

在 JVM中，字符是使用 Unicode编码的。Unicode编码指的是UCS-2编码方式，即直接用两个字节存入字符的Unicode码。Unicode是一个很大的集合，将世界上所有的符号都纳入其中，每一个符号都给予一个独一无二的编码。需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。基本多文种平面是Unicode中的一个编码区段。编码从U+0000至U+FFFF。常用汉字在此区间对应。常用字占用2个字节，在多文种平面区。冷僻字占用4个字节，在其它平面。所以，冷僻的汉字无法在Java中使用。在这里补充一点知识：

（1）编码字符集
编码字符集是一个字符集，它为每一个字符分配一个唯一数字。Unicode 标准的核心是一个编码字符集，字母“A”的编码为0041和字符“€”的编码为20AC。Unicode标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，所以“A”的编码书写为“U+0041”。
（2）代码点code point和代码单元
代码点是指可用于编码字符集的数字。编码字符集定义一个有效的代码点范围，但是并不一定将字符分配给所有这些代码点。有效的 Unicode代码点范围是 U+0000 至 U+10FFFF 代码单元可以理解为字符编码的一个基本单元，最常用的代码单元是字节（即8位），但是16位和32位整数也可以用于内部处理。
（3）增补字符
16 位编码的所有 65，536 个字符并不能完全表示全世界所有正在使用或曾经使用的字符。于是，Unicode 标准已扩展到包含多达 1，112，064 个字符。那些超出原来的16 位限制的字符被称作增补字符。
Java的char类型是固定16bits的。代码点在U+0000-U+FFFF之内到是可以用一个char完整的表示出一个字符。但代码点在U+FFFF之外的，一个char无论如何无法表示一个完整字符。这样用char类型来获取字符串中的那些代码点在U+FFFF之外的字符就会出现问题。
因此，Java 平台不仅需要支持增补字符，而且必须使应用程序能够方便地做到这一点。Java Community Process 召集了一个专家组，以期找到一个适当的解决方案。该小组被称为JSR-204专家组，使用Unicode 增补字符支持的Java技术规范请求的编号。
增补字符是代码点在 U+10000 至 U+10FFFF 范围之间的字符，也就是那些使用原始的 Unicode 的 16 位设计无法表示的字符。从 U+0000 至 U+FFFF 之间的字符集有时候被称为基本多语言面（BMP UBasic Multilingual Plane ）。因此，每一个 Unicode 字符要么属于 BMP，要么属于增补字符。

3 字符的转码

因为一个字符可以使用多种编码方式进行表示，所以在不同的编码方式直接可以进行自由的转换。原理：利用字符串的getBytes（）方法转换成字节数组，然后继续利用String类的构造函数String(byte[] bytes, String charsetName)返回原字符串。如下面的小例子：

public class Test
{
      public static void main(String[] args) throwsUnsupportedEncodingException
      {
            String str = "测试"; 
        byte[] bytegbk =str.getBytes("gbk");
        String result = new String(bytegbk, "gbk"); 
        System.out.println(result);
       
        bytegbk = result.getBytes("utf-8");
        result = new String(bytegbk, "utf-8"); 
        System.err.println(result); 
      }
}

4 char深刻研究

（1）char的包装类是Character。

（2）char占用两个字节存储字符。存储过程为：字符->Unicode代码点->UTF-16编码格式存储->大端/小端->文件

（3）char并不能表示所有的字符，Unicode的编码空间从u\0000到u\10FFFF，而JAVA所表示的范围是：\u0000到\uFFFF，仅仅能表示65535个字符。

（4）utf-16定义：

如果字符编码小于0x10000，也就是十进制的0到65535之内，则直接使用两字节表示；如果字符编码大于0x10000，由于Unicode编码范围最大为0x10FFFF，从0x10000到0x10FFFF之间共有0xFFFFF个编码，也就是需要20个bit就可以标示这些编码。为表示从0x10000到0xFFFFF之间的值，将其前10 bit作为高位和16 bit的数值0xD800（1101 1000 0000 0000）进行逻辑or操作，将后10 bit作为低位和0xDC00（1101 1100 0000 0000）做逻辑or操作，这样组成的4个字节就构成了字符编码。