字符集——带你了解UTF-8的前世今生

最新推荐文章于 2024-08-05 11:00:22 发布

生生不息~

最新推荐文章于 2024-08-05 11:00:22 发布

阅读量1.4k

点赞数 35

分类专栏： java学习文章标签：字符集 UTF-8 GBK

本文链接：https://blog.csdn.net/qq_45858191/article/details/134818340

版权

java学习专栏收录该内容

32 篇文章 0 订阅

订阅专栏

文章目录

字符集的来历

计算机是美国人发明的，由于计算机能够处理的数据只能是0和1组成的二进制数据，为了让计算机能够处理字符，于是美国人就把他们会用到的每一个字符进行了编码（所谓编码，就是为一个字符编一个二进制数据），如下图所示：（图片来自于百度百科，只需要了解常见的英文字母（大小写）、数字等就好了，不需要细究）

在这里插入图片描述
美国人常用的字符有英文字母、标点符号、数字以及一些特殊字符，这些字符一共也不到128个，所以他们用1个字节来存储1字符就够了。美国人把他们用到的字符和字符对应的编码总结成了一张码表，这张码表叫做ASCII码表（也叫ASCII字符集）。

其实计算机只在美国用是没有问题的，但是计算机慢慢的普及到全世界，当普及到中国的时候，在计算机中想要存储中文，那ASCII字符集就不够用了，因为中文太多了，随便数一数也有几万个字符。

于是中国人为了在计算机中存储中文，也编了一个中国人用的字符集叫做GBK字符集，这里面包含2万多个汉字字符，GBK中一个汉字采用两个字节来存储，为了能够显示英文字母，GBK字符集也兼容了ASCII字符集，在GBK字符集中一个字母还是采用一个字节来存储。

汉字和字母的编码特点

如果一个文件中既有中文，也有英文，那计算机怎么知道哪几个字节表示一个汉字，哪几个字节表示一个字母呢？

比如：在文件中存储一个我he你，底层其实存储的是这样的二进制数据。

需要我们注意汉字和字母的编码特点：

1. 如果是存储字母，采用1个字节来存储，一共8位，其中第1位是0
2. 如果是存储汉字，采用2个字节来存储，一共16位，其中第1位是1

当读取文件中的字符时，通过识别读取到的第1位是0还是1来判断是字母还是汉字

如果读取到第1位是0，就认为是一个字母，此时往后读1个字节。
如果读取到第1位是1，就认为是一个汉字，此时往后读2个字节。

也即，GBK规定了汉字的第一个字节的第一位必须是1.

Unicode字符集

咱们国家可以用GBK字符集来表示中国人使用的文字，那世界上还有很多其他的国家，他们也有自己的文字，他们也想要自己国家的文字在计算机中处理，于是其他国家也在搞自己的字符集，就这样全世界搞了上百个字符集，而且各个国家的字符集互不兼容。这样其实很不利于国际化的交流，可能一个文件在我们国家的电脑上打开好好的，但是在其他国家打开就是乱码了。

为了解决各个国家字符集互不兼容的问题，由国际化标准组织牵头，设计了一套全世界通用的字符集，叫做Unicode字符集。在Unicode字符集中包含了世界上所有国家的文字，一个字符采用4个字节才存储。

在Unicode字符集中，采用一个字符4个字节的编码方案，又造成另一个问题：如果是说英语的国家，他们只需要用到26大小写字母，加上一些标点符号就够了，本身一个字节就可以表示完，用4个字节就有点浪费。

于是又对Unicode字符集中的字符进行了重新编码，一共设计了三种编码方案。分别是UTF-32、UTF-16、UTF-8; 其中比较常用的编码方案是UTF-8

UTF-8这种编码方案的特点总结如下：

1.UTF-8是一种可变长的编码方案，共分为4个长度区
2.英文字母、数字占1个字节兼容(ASCII编码)
3.汉字字符占3个字节
4.极少数字符占4个字节

字符集小结

ASCII字符集：《美国信息交换标准代码》，包含英文字母、数字、标点符号、控制字符
特点：1个字符占1个字节

GBK字符集：中国人自己的字符集，兼容ASCII字符集，还包含2万多个汉字
特点：1个字母占用1个字节；1个汉字占用2个字节

Unicode字符集：包含世界上所有国家的文字，有三种编码方案，最常用的是UTF-8
UTF-8编码方案：英文字母、数字占1个字节兼容(ASCII编码)、汉字字符占3个字节

编码和解码

其实String类类中就提供了相应的方法，可以完成编码和解码的操作。

编码：把字符串按照指定的字符集转换为字节数组
解码：把字节数组按照指定的字符集转换为字符串

示例代码如下所示：

/**
 * 目标：掌握如何使用Java代码完成对字符的编码和解码。
 */
public class Test {
    public static void main(String[] args) throws Exception {
        // 1、编码
        String data = "a我b";
        byte[] bytes = data.getBytes(); // 默认是按照平台字符集（UTF-8）进行编码的。
        System.out.println(Arrays.toString(bytes));

        // 按照指定字符集进行编码。
        byte[] bytes1 = data.getBytes("GBK");
        System.out.println(Arrays.toString(bytes1));

        // 2、解码
        String s1 = new String(bytes); // 按照平台默认编码（UTF-8）解码
        System.out.println(s1);

        String s2 = new String(bytes1, "GBK");
        System.out.println(s2);
    }
}

开发约定

开发一个项目的时候，最开始的时候，首先要设定的就是代码的编码格式，如果不约定好，后面很容易因为各种编码混用造成乱码。一个项目具体的编码格式一般来说统一就好，要按照实际需求来。例如我曾经实习的时候就约定好了
.java文件使用GBK编码；其他文件都一致使用UTF-8编码。

生生不息~

关注

35
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
字符集——带你了解UTF-8的前世今生

咱们国家可以用GBK字符集来表示中国人使用的文字，那世界上还有很多其他的国家，他们也有自己的文字，他们也想要自己国家的文字在计算机中处理，于是其他国家也在搞自己的字符集，就这样全世界搞了上百个字符集，而且各个国家的字符集互不兼容。在Unicode字符集中，采用一个字符4个字节的编码方案，又造成另一个问题：如果是说英语的国家，他们只需要用到26大小写字母，加上一些标点符号就够了，本身一个字节就可以表示完，用4个字节就有点浪费。，为了能够显示英文字母，GBK字符集也兼容了ASCII字符集，
复制链接

扫一扫

专栏目录