编码和解码通俗解释

最新推荐文章于 2024-04-05 21:22:57 发布

小米牌花露水

最新推荐文章于 2024-04-05 21:22:57 发布

阅读量3.4k

点赞数 1

分类专栏：学习文章标签：计算机

学习专栏收录该内容

77 篇文章 0 订阅

订阅专栏

在内存中，本来没有字符的概念，每个字节都是一个0-255的数字。我们把数字进行编号，每个数字代表一个字符。
追根溯源，以ASCII码为例。比如65（十进制）定义为字符'A'，66定义为'B'，61定义为'='。
这就是编码。然后才有了char型定义，实际上等同于byte，只是使用char型时就知道要表示的是字符。
如果char ch=65，然后printf("%c",ch)，出来就是'A'，这就是解码了。如果printf("%d",ch)，那出来就仍是65。 
单字节byte只能支持0-255的编码，对于亚洲语言，像中文汉字，是完全不够用的。所以之后有双字节(0-65535)以及多字节编码的出现。
以双字节为例，0-65535并不能同时为多种语言编码。所以打个比方，同一个数字，可能在中文GBK编码时定义为汉字'王'，而在日文编码MS932中就被定义为'小'。
当内存中的数字被解释为字符（文字和符号）时，就是解码过程，把文字和符号用数字定义时就是编码。
实际编码过程中，不少是前后字节有关联性定义的，并非我说的那么简单。 
在网络传输时，实际上仍然是单字节，甚至是字节中1个bit一个bit传输的。
我们在传输时使用byte数组，即基本类型，而在传输前后转回GBK中文编码。
以老美的视角来看问题，则从byte变成亚洲语言(GBK/Unicode)属于编码encoding，而相反过程是解码decoding。


另外：
    str.getByte()方法使用“平台的默认字符集”(例如本机就是GBK)将此 String 编码为 byte 序列，并将结果存储到一个新的 byte 数组中。