常见的字符编码有哪些？有什么区别？_编码的种类及特征-CSDN博客

本文链接：https://blog.csdn.net/smile_tianya/article/details/132318688

本文解释了字符编码的概念，重点讨论了ASCII、Unicode、UTF-8和GBK的关系，以及为何在不同编码格式间转换时可能出现乱码。特别提到UTF-8的灵活性导致GB2312和GBK的使用，以适应特定语言环境的需求。

摘要由CSDN通过智能技术生成

面试回答

知识扩展

Unicode 和 UTF-8 有啥关系？

有了 UTF-8，为什么要出现 GBK

为什么会出现乱码

面试回答

就像电报只能发出“滴”和“答”声一样，计算机只认为 0 和1 两种字符，但是，人类的文字是多种多样的，如何把人类的文字转换成计算机认识的 0、1 字符呢，这个过程同样需要通过字符编码。

字符编码（Character encoding）是一套法则，使用该法则能够对自然语言的字符的一个集合（如字母表或音节表），与其他东西的一个集合（如号码或电脉冲）进行配对。

和摩尔斯电码功能类似，上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定，这被称为 ASCII 码，一直沿用至今。

由于 ASCII 只有 128 个字符，虽然对于英文字符都可以表示了，但是世界上还有很多其他的文字是没办法表示的，所以需要一种更加全面的字符编码。

于是又出现了 Unicode 字符集（常见的 Unicode Transformation Format 有：UTF-7，UTF-7.5，UTF-8，UTF-16，以及 UTF-32）,除此之外还有一些常用的中文编码有 GBK，GB2312，GB18030 等。

知识扩展

Unicode 和 UTF-8 有啥关系？

Unicode （中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得计算机可以用更为简单的方式来呈现和处理文字。

Unicode 备受认可，并广泛地应用于计算机软件的国际化与本地化过程。有很多新科技，如可扩展置标语言（Extensible Markup Language，简称：XML）、Java 编码语言以及现代的操作系统，都采用 Unicode 编码。

Unicode 是一套通用的字符集，包含世界上的大部分文字，也就说，Unicode 是可以表示中文的。

但是，Unicode 虽然统一了全世界字符的编码，但没有规定如何存储。

因为如果 Unicode 统一规定，每个符号就要用三个或四个字节表示，因为字符太多，只能用这么多字节才能表示完全。一旦这么规定，那么每个英文字母前都必然有二到三个字节是0，因为所有英文字母在 ASCII 中都有，都可以用一个字节表示，剩余字节位置就要补充 0,。如果这样，文本文件的大小会因此大出二三倍，这对于存储来说是极大的浪费。

为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即 UTF（Unicode Transformation Format）。常用的 UTF 格式与：UTF-7，UTF-7.5，UTF-8，UTF-16，以及 UTF-32。