java 汉字 char_java中char与汉字占用字节个数问题

最新推荐文章于 2023-07-07 03:21:47 发布

叶子472的522

最新推荐文章于 2023-07-07 03:21:47 发布

阅读量300

点赞数

文章标签： java 汉字 char

本文链接：https://blog.csdn.net/weixin_35051558/article/details/114058931

版权

一直都是糊里糊涂的在用，始终没有搞清楚汉字在java中占用字节个数的问题，每次都是逃避着过去了。今天一个字节编码问题让我不得不去重新认识char与汉字编码这个问题。

下面是引用一个讨论中的资料：

http://www.iteye.com/topic/47740 写道

(由于原作者将字节和位写混淆了，引用时我已做过更改)

貌似一个简单的问题(也许还真是简单的)但是却把曾经自认为弄清楚的我弄得莫名其

妙

char在Java中应该是16个bit

byte在Java中应该是8个bit

char x = '编'; //这样是合法的，输出也是16个bit

但是

String str = "编";

byte[] bytes = str.getBytes(); //我想不明白，为什么这里要占用3个byte呢?

3个byte一共是3*8=24个bit，那么char x怎么又放得下？我坚信char是16个bit，

但是str.getBytes()这个东西到底又怎么回事？

不好意思，表达有点乱，但是的确太奇怪了。希望大家能指点一下。

skydream 写道

首先，java中的一个char的确是2个字节。java采用unicode，2个字节来表示一个字符。

其次，楼主你说的byte[] bytes = str.getBytes();之后是3个字节，这里和前面的概念不一样。java是用unicode来表示字符，"编"这个中文字符的unicode就是2个字节。String.getBytes(encoding)方法是获取指定编码的byte数组表示，通常gbk/gb2312是2个字节，utf-8是3个字节。如果不指定encoding则取系统默认的encoding.

kdekid 写道

首先，要搞清楚 code point 和 encoding 的区别。Java 是遵循 unicode 4.0 标准的，而内部的 character 以 utf-16 作为 encoding。unicode 4.0 标准包含从 U+0000-U+FFFF 的基本多语言平面和 U+10000-U+10FFFF 的扩展平面的文字，这是 code point。Java 的 char 类型是 16 bit 的，所以单个 char 只支持基本平面内的文字，而扩展平面的文字是由一对 char 来表示的。

而 String.getBytes() 这个方法是按照指定的 encoding 返回字符串，一般中文系统的默认编码是 utf-8 (linux, mac) 或者 gbk/gb18030 (windows)。只要是基本平面内的文字，utf-8码的中文都是3字节的，而 gbk/gbk18030 是2字节的。

分享到：

2012-01-11 14:46

叶子472的522

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 汉字 char_java中char与汉字占用字节个数问题

一直都是糊里糊涂的在用，始终没有搞清楚汉字在java中占用字节个数的问题，每次都是逃避着过去了。今天一个字节编码问题让我不得不去重新认识char与汉字编码这个问题。下面是引用一个讨论中的资料：http://www.iteye.com/topic/47740 写道(由于原作者将字节和位写混淆了，引用时我已做过更改)貌似一个简单的问题(也许还真是简单的)但是却把曾经自认为弄清楚的我弄得莫名其妙char...
复制链接

扫一扫