常见的字符编码详细解释

最新推荐文章于 2025-03-09 16:06:21 发布

Run，boy

最新推荐文章于 2025-03-09 16:06:21 发布

阅读量3k

点赞数

分类专栏：《Java基础》专栏文章标签： java

本文链接：https://blog.csdn.net/qq_39939541/article/details/131840397

版权

《Java基础》专栏专栏收录该内容

40 篇文章

订阅专栏

文章介绍了字符编码的基本概念，包括ASCII码和Unicode，重点阐述了UTF-8和GBK编码的区别和应用场景。Unicode作为通用字符集，通过UTF-8等变长编码方式存储字符，而GBK是针对中文的编码，节省存储空间。乱码问题通常源于编码和解码间的不匹配。文章总结了各种编码方式的特点及其适用范围。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、字符编码简介

人类的文字字符编码是通过一套法则将自然语言的字符与计算机认识的0和1字符进行配对的过程。这个过程需要使用字符编码规则来转换人类的文字字符为计算机能够识别的01字符。

字符编码规则是一套法则，它将自然语言的字符集（如字母表或音节表）与其他东西的集合（如号码或电脉冲）进行对应。类似于摩尔斯电码，上个世纪60年代，美国制定了一套字符编码规则，称为ASCII码，用于表示英语字符与二进制位之间的关系，并且至今仍在使用。

然而，由于ASCII码只包含128个字符，无法表示世界上其他许多文字，因此需要更全面的字符编码。于是，Unicode字符集出现了（常见的编码方式有UTF-7、UTF-8、UTF-16和UTF-32），它可以表示全球范围内的各种文字。此外，还有一些常用的中文编码方式，如GBK、GB2312和GB18030。

通过使用Unicode和其他编码方式，人类的文字可以被准确地转换成计算机认识的01字符，从而在计算机系统中进行处理和显示。这样，不同语言和文字的信息可以在计算机系统中得到正确地表示和传输。

二、Unicode 和 UTF-8的关联

Unicode是计算机科学领域的一项业界标准，用于整理和编码世界上大部分的文字系统，使计算机能够以简单的方式处理和呈现文字。它被广泛应用于计算机软件的国际化与本地化过程，包括可扩展置标语言(XML)、Java编程语言和现代操作系统。

Unicode是一个通用的字符集，包含世界上大部分的文字，可以表示中文等各种字符。然而，Unicode并没有规定字符如何存储。如果Unicode规定每个字符都用三个或四个字节来表示，由于字符数量庞大，文本文件的大小将大大增加，造成存储浪费。

为了解决这个问题，出现了一些中间格式的字符集，称为通用转换格式(UTF)。常见的UTF格式有UTF-7, UTF-7.5, UTF-8, UTF-16和UTF-32。

UTF-8使用一至四个字节编码每个字符。
UTF-16使用二或四个字节编码每个字符。
UTF-32使用四个字节编码每个字符。

以上是对Unicode和其相关的字符编码格式的说明。

三、有了UTF-8，为什么要出现GBK

对于首先纳入的文字，可以优先使用1字节或2字节进行存储；而对于后纳入的文字，则需要使用3字节或4字节进行存储。

当使用UTF-8编码时，每个字符的存储空间取决于字符的Unicode码点。✨对于常见的汉字，UTF-8编码使用3个字节进行存储。然而，如果我们只需要包含中文和ASCII字符的编码，可以采用一种只使用2个字节的编码方式，从而减少存储空间的需求。✨

当使用UTF-8编码时，常见的汉字使用3个字节进行存储。例如，汉字"你"的UTF-8编码是E4 BD A0。

然而，如果我们只需要包含中文和ASCII字符的编码，可以采用一种只使用2个字节的编码方式，例如GB2312或GBK编码。举个例子，汉字"你"在GBK编码中的存储方式是C4 E3。

通过采用只使用2个字节的编码方式，相比于UTF-8编码，可以减少每个汉字的存储空间，从而节省存储空间的需求。