Java字符编码

编码问题

记录下自己对编码的理解和疑惑,什么是Unicode?UTF-8、UTF-16、ASCII又是什么?


编码与解码

编码 :信息从一种数据形式到另一种数据形式的转换过程。信息在计算机中的存储与传输是以二 进制的形式进行的,计算机中的存储单元为Byte,所以需要计算机处理的信息必须编码为Bytes。
解码:编码的逆向过程。计算机中为Bytes到字符信息的转换。

为什么要编码

计算机中的存储单元为Byte即8位的二进制形式,所能表达的字符范围为256种,世界上的字符远远多于256中。英语、韩语、汉语等需要不同的编码方式。不同的编码自然要不同的解码翻译,如何翻译呢?byte c1=97代表什么字符?int c2= 26790 又该如何翻译呢?

解码翻译

ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16编码表中记录了所属编码的解码对照,可被认为是不同编码的解码翻译。有没有一本统一的编码表呢?全世界共同使用的字典?Unicode编码集保存着全世界的字符的编码点(CodePoint),可以存储足够多的字符表示了。Unicode的编码形式又分为UTF-8,UTF-16,UTF-32分别表示8位,16位,32位存储。采用哪种编码需要在传输大小、编码效率等问题进行折中选择。UTF-8是可变长度的编码规则,一般会采用UTF-8进行编码,

UTF-8的编码规则

这里写图片描述

Unicode

Unicode的编码点以U+开始如U+0x0020的形式表示,能表示的编码点范围为0x0000~0x10FFFF。我们知道Java中的字符都是以Unicode的形式保存的,并且采用UTF-16的形式编码,所以说Java中的char占用16位即2个字节,16位所能存储的最大值为0xFFFF。那么对于U+10000~U+10FFFF部分的CodePoint(这一部分代表的字符被称为辅助字符supplementary character),Java中的UTF-16显然无法存储

Java中的char类型

Java中的char类型采用UTF-16描述一个代码单元,对于超过0xFFFF的代码点的字符需要两个代码单元表示。另外int类型可以存储所有的Unicode代码点。

简单事例

事例
运行结果

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值