什么是编码?
字符‘中’, 用unicode表示为:0x4e2d, 用gb2312表示为: 0xd6d0, 这就是编码, 将某种形式信息转化为其它形式.
什么是解码?
把0x4e2d这样信息转化为'中'
为什么会存在编解码这样的概念?
编码的原因: 人们交流用到的文字, 无法再计算机中直接表示[计算机只认数字信息], 因此要把这些文字字符, 编程二进制数字信息, 方便存储和传输. 由于这个世界乱七八糟的组织非常多, 所以吧文字字符编译成二进制信息的方式也不同, 这些就是今天纷繁复杂的编码规则:utf8,gb2312,gbk,utf-16,unicode等.
解码原因: 表达文本信息的, 存储成了二进制, 人不可能看懂的, 所以借助机器帮我们按照原来的规则, 解码一下, 恢复成文字.
更具体的表述, java中,用char ''表达出来的东西, 是已经编码好的数据:
char a = '中';
char b = 'h';
由此引申出来的char*, char[], String等, 都属于已经编码好的数据.
因此char表示已经编码好的数据, 即我们提到的字符, 这个是针对人类交流所用到的表示方式. 比如'中', 对于人而言, 是非常清晰的阅读的.而计算机是不认识字符的, 它只能读懂二进制表示的字节.
但对于机器而言, 这样的方式是不可解读的, 因此它需要把'中',存储起来, 存储的方式是按照字节存储, 遵循某种规则:
'中' 按照gb2312来存储: 0xd6d0
'中' 按照unicode来存储: 0xe42d
...
所以, 常常提到的字符, 字符串这类表达方式, 都是给人交流用的.
而字节, 字, 这类描述, 是描述PC的, 比如一个int有几个字节, 一个double有几个字节,这些,都是为了描述机器中定义基础数据的
可以看到, 如果是一个字符文本信息, 存入到文件中时, 必须知道它的编码格式, 否则文本无法正确读出。
如果是二进制[即只给计算机处理用, 不需要人理解]文件, 这没有这样的问题
下面是Java中一个比较经典的出错:
看到字符, 想到编码, 联想文本
看到字节, 想到解码,联想二进制
上面说到的是java中的表达方式, 在c中表达, 字符和字节是有区别的:
java 和 c关于char/byte的区别
java: char 为unicode编码, 是2个byte
c: 没有byte这个基本类型, byte一般表示0~255的字符, 即unsigned char char而言是有符号的.
延伸阅读和参考文献:
3. Unicode文件标记——BOM(Byte Order Mask)