字符编码知识

最新推荐文章于 2024-06-13 11:43:44 发布

x-teamer团队

最新推荐文章于 2024-06-13 11:43:44 发布

阅读量1.3k

点赞数

分类专栏：软件技术【C/JNI..】软件技术【java基础】文章标签： byte 存储 java string encoding 联想

本文链接：https://blog.csdn.net/ostrichmyself/article/details/5665065

版权

软件技术【C/JNI..】同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

软件技术【java基础】

13 篇文章 0 订阅

订阅专栏

什么是编码?

字符‘中’，用unicode表示为:0x4e2d, 用gb2312表示为: 0xd6d0, 这就是编码, 将某种形式信息转化为其它形式.

什么是解码?

把0x4e2d这样信息转化为'中'

为什么会存在编解码这样的概念?

编码的原因: 人们交流用到的文字, 无法再计算机中直接表示[计算机只认数字信息], 因此要把这些文字字符, 编程二进制数字信息, 方便存储和传输. 由于这个世界乱七八糟的组织非常多, 所以吧文字字符编译成二进制信息的方式也不同, 这些就是今天纷繁复杂的编码规则:utf8,gb2312,gbk,utf-16,unicode等.

解码原因: 表达文本信息的, 存储成了二进制, 人不可能看懂的, 所以借助机器帮我们按照原来的规则, 解码一下, 恢复成文字.

更具体的表述, java中,用char ''表达出来的东西, 是已经编码好的数据:

char a = '中';
char b = 'h';
由此引申出来的char*, char[], String等, 都属于已经编码好的数据.
因此char表示已经编码好的数据, 即我们提到的字符, 这个是针对人类交流所用到的表示方式. 比如'中', 对于人而言, 是非常清晰的阅读的.而计算机是不认识字符的, 它只能读懂二进制表示的字节.

但对于机器而言, 这样的方式是不可解读的, 因此它需要把'中',存储起来, 存储的方式是按照字节存储, 遵循某种规则:
'中' 按照gb2312来存储: 0xd6d0
'中' 按照unicode来存储: 0xe42d
...

所以, 常常提到的字符, 字符串这类表达方式, 都是给人交流用的.

而字节, 字, 这类描述, 是描述PC的, 比如一个int有几个字节, 一个double有几个字节,这些,都是为了描述机器中定义基础数据的

可以看到, 如果是一个字符文本信息, 存入到文件中时, 必须知道它的编码格式, 否则文本无法正确读出。

如果是二进制[即只给计算机处理用, 不需要人理解]文件, 这没有这样的问题

下面是Java中一个比较经典的出错:

//char src = 0x0061; //字母a, 97的表示方法 char src = '中'; //char本身的默认编码为utf16或者unicode System.out.println("原始字符:" + src); byte high =(byte) (src>>8); byte low = (byte)(src); System.out.println("高字节:" + Integer.toHexString(high)); System.out.println("低字节:" + Integer.toHexString(low)); //从字节流变成字符, 需要解码, 因此这里只能用unicode或者utf16, gbk或者gb2312肯定出错 System.out.println(new String(new byte[]{(byte)high, (byte)low}, "unicode"));

看到字符, 想到编码, 联想文本
看到字节, 想到解码，联想二进制

上面说到的是java中的表达方式, 在c中表达, 字符和字节是有区别的:

java 和 c关于char/byte的区别

java: char 为unicode编码, 是2个byte

c: 没有byte这个基本类型, byte一般表示0~255的字符, 即unsigned char char而言是有符号的.

延伸阅读和参考文献:

1.关于字符编码，你所需要知道的

2. ANSI编码和Unicode编码的不同

3. Unicode文件标记——BOM（Byte Order Mask）

4. Unicode详解

5. 字符集和字符编码（Charset & Encoding）