编码 -- char 1= '中' 2 byte, 中文string a="中" 3字节问题

转:http://blog.csdn.net/lhooouuu/article/details/6556784

提问者

char在Java中应该是16个字节 
byte在Java中应该是8个字节 (ps:提问者有错,解答会讲原因)
char x = '编'; //这样是合法的,输出也是16个字节 

但是 
String str = "编"; 
byte[] bytes = str.getBytes(); //我想不明白,为什么这里要占用3个byte呢? 
3个byte一共是3*8=24个字节,那么char x怎么又放得下?我坚信char是16个字节, 
但是str.getBytes()这个东西到底又怎么回事?


解答1:

首先,java中的一个char的确是2个字节。java采用unicode,2个字节来表示一个字符。

其次,楼主你说的byte[] bytes = str.getBytes();之后是3个字节,这里和前面的概念不一样。java是用unicode来表示字符,"编"这个中文字符的unicode就 是2个字节。String.getBytes(encoding)方法是获取指定编码的byte数组表示,通常gbk/gb2312是2个字节,utf- 8是3个字节。如果不指定encoding则取系统默认的encoding.

另外,楼主的“字节”说的有点乱,通常我们说的字节是指byte,还有一个"位"的概念(bit) ,通常情况下1 byte=8 bit.
"3个byte一共是3*8=24个字节"这句话应该表示为“3个byte一共是3*8=24个bit”

 

解答2:

首先,要搞清楚 code point 和 encoding 的区别。Java 是遵循 unicode 4.0 标准的,而内部的 character 以 utf-16 作为 encoding。unicode 4.0 标准包含从 U+0000-U+FFFF 的基本多语言平面和 U+10000-U+10FFFF 的扩展平面的文字,这是 code point 。Java 的 char 类型是 16 bit 的,所以单个 char 只支持基本平面内的文字,而扩展平面的文字是由一对 char 来表示的。 

而 String.getBytes() 这个方法是按照指定的 encoding 返回字符串 ,一般中文系统的默认编码是 utf-8 (linux, mac) 或者 gbk/gb18030 (windows)。只要是基本平面内的文字,utf-8码的中文都是3字节的,而 gbk/gbk18030 是2字节的 。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值