为什么JAVA的char类型只占用两个字节,采用utf-8编码时却可以储存汉字?

        utf-8中一个汉字等于三个字节,而char类型只占用两个字节,为什么汉字可以储存在char类型中?

        Unicode是一种字符集,用两个字节就能囊括世界上许多文字集合;

        而utf-8是一种编码方式,是Unicode的一种表现方式。

        Java语言内部存储采用的Unicode编码,Unicode编码中的每个字符占两个字节,中文也是占两个字节。这两个字节的每一个编码都单独代表唯一一个字(就如ASCII码中65代表A,其编码为0100 0001,占一个字节)。Unicode只规定了字符的二进制代码,却没有规定这个二进制代码应该如何储存。一个字符的Unicode编码是确定的,而对于Unicode不同的编码实现方式,一个字符的表现形式也不同。

        utf-8就是以8位为单位对Unicode进行编码,转换规则如下: 

Unicode(16进制)

Unicode(二进制)utf-8
0000-007F0000 0000 0000 0000 - 0000 0000 0111 11110xxxxxxx
0080-07FF0000 0000 1000 0000 - 0000 0111 1111 1111110xxxxx 10xxxxxx
0800-FFFF0000 1000 0000 0000 -  1111 1111 1111 11111110xxxx 10xxxxxx 10xxxxxx

不同的大小对应不用的编码方式。举一个例子,“中”字的Unicode编码是0x4E2D,它在0800-FFFF的范围内,所以采用三字节模板。将0x4E2D写成二进制:01001110 00101101,将这些比特按顺序填入转换格式中,就得到 11100100 10111000 10101101,对应的十六进制编码——E4B8AD。

        上述只是utf-8的编码形式,不同的编码方式有不同的编码规则,在以字节读取的时候才会以编码方式(如utf-8)得到的编码形式展现出来。在内存中存储还是只占用两个字节的Unicode码。  

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值