Java字符编码详解

char

  1. “字节”是byte,“位”是bit ;
  2. 1 byte = 8 bit ;
  3. char 在Java中是2个字节。java采用unicode(《java核心技术卷一》里面有详细说明),2个字节(16位)来表示一个字符。而Unicode编码包括汉字,所以也可以给char赋值汉字。

那么我们在程序中的char =‘\123’和char = ‘\u0023’甚至’\”’这些又是怎么回事呢?

这个需要从计算机的历史说起。


Ascii及中国的编码

既然是程序员,那么大家对Ascii肯定有一定的了解。
Ascii(American Standard Code for Information Interchange),美国信息互换标准代码,官方的ASCII码表如下->AsciiTABLE

Ascii为八位一个字节,一共可以组合出256(2的8次方)种不同的状态。

一开始美国人把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作。遇上00x10, 终端就换行,例好遇上0x1b, 打印机就打印反白的字,或者终端就用彩色显示字母。
这些0x20以下的字节状态称为”控制码”。

接着把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就可以用不同字节来存储英语的文字了。

后来,就像建造巴比伦塔一样,世界各地的都开始使用计算机,但是很多国家用的不是英文,他们的字母里有许多是ASCII里没有的。他们决定采用127号之后的空位来表示这些新的字母、符号,还加入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态255。
从128到255这一页的字符集被称”扩展字符集”。

等到我们天朝用计算机时发现挖槽你他妈一个位置都没留给我,我还有几千上万个文字要保存呢,于是我们自己创造了两个字节编码的“GB2312”以及之后的同样是两个字节的“GBK”。之后“GBK”扩展为“GB18030”,这些编码标准被通称为 “DBCS”&#

  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值