char可以存汉字吗,底层是怎么存的?

先给出结论:

  1. char变量是用来存储Unicode编码字符的,采用Unicode编码集,一个char占用两个字节,而一个中文字符也是两个字节,因此Java中的char是可以表示一个中文字符的;

  2. Java内部其实是使用的UTF-16的编码,所以是支持大部分非生僻汉字的;

  3. Java的char只能表示UTF-16中的BMP部分的中文字符,不能表示扩展字符集里的中文字符;

Java中char类型使用16位无符号整数来描述unicode中最早一批收录的字符,这批字符后来被叫作Basic Multilingual Plane(BMP)。

char类型是按照Unicode规范实现的一种数据类型,固定16bit大小,范围为 [U+0000,U+FFFF] (无符号16进制)。现如今,Unicode字符集已经进行了扩展,表示的范围已经超过了16bit。Unicode字符集的数值范围扩大到了[U+0000,U+10FFFF]。

一个char能够存储16bit大小的数值,即2个字节。但是,就常用的UTF-8编码来说,我们都听说过他是用3或者4个字节来表示一个汉字的。就拿3个字节来算的话,一个char也存不下是不是?

而且,绝大部分的中文字符的Unicode范围是[0x4E00, 0x9FBB],恰好是char可存储的范围内。

是不是说这里出现了破解不了的矛盾呢?UTF-8占用3到4个字节,char只能存2个字节(16bit),然而UTF-8中的几乎所有汉字都是在char可存储的范围内,是不是矛盾了?

不矛盾,这里给出解释:

49108a86b42c40ea469e2cb6b85593bb.png

先看图,首先我们得清楚class文件编码格式是UTF-8,JVM虚拟机内存中字符编码是UTF-16,而Java代码是在虚拟机运行的.

UTF-16编码对于占用两个字节的字符是直接存储Unicode值,而UTF-8有标识位所以需要三个字节才能存储.

具体内容可参考我的这两篇文章:

UTF-8 与 UTF-16编码详解_小鲁蛋儿的博客-CSDN博客

Java在编译到执行过程的编码问题_小鲁蛋儿的博客-CSDN博客

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值