一篇文章带你了解字符编码

MHP小喇叭

已于 2024-08-20 18:10:06 修改

阅读量992

点赞数 14

文章标签： java 开发语言

于 2024-08-20 11:21:11 首次发布

本文链接：https://blog.csdn.net/2301_79842503/article/details/141352251

版权

ASCII字符集

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是一种基于拉丁字母的字符编码系统，它主要用于电子通信中字符的显示、存储和传输。ASCII是计算机中最常用的字符编码标准之一，特别是在处理英文文本时。

定义

ASCII是1963年由美国国家标准局（ANSI）制定的字符编码标准，它最初包含了128个字符，用于表示英文字母、数字、标点符号、控制字符等。这些字符被分配了从0到127的数字编号，称为ASCII码。

特点

单字节编码：ASCII字符集中的每个字符都使用单个字节（8位）进行编码。由于最高位通常设置为0（用于与扩展的ASCII码兼容），因此实际使用的编码范围是7位，即从0000000到1111111（十进制中的0-127）。
兼容性：ASCII码与早期的电报码（如Baudot码）和莫尔斯电码等有一定的兼容性，使得它在电子通信领域得到了广泛应用。
控制字符：ASCII码表中包含了32个控制字符（从0到31和127），这些字符用于控制计算机硬件和软件的操作，如换行、回车、制表符等。它们是不可打印的，但在文本处理中起着重要作用。
可打印字符：除了控制字符外，ASCII码表还包含了95个可打印字符（从32到126），包括大写和小写字母、数字、标点符号以及空格等。

常见字母的ASCII编码值

大写字母

大写字母的ASCII编码值从65开始，到90结束。每个大写字母的ASCII编码值按照字母表顺序递增。具体示例如下：

字母	ASCII编码值
A	65
B	66
C	67
...	...
Y	89
Z	90

小写字母

小写字母的ASCII编码值紧接着大写字母之后，从97开始，到122结束。每个小写字母的ASCII编码值也按照字母表顺序递增。具体示例如下：

字母	ASCII编码值
a	97
b	98
c	99
...	...
y	121
z	122

应用

ASCII字符集在计算机系统和互联网协议中得到了广泛应用。它是许多文本处理系统、编程语言和网络通信协议的基础。尽管它不支持其他语言的字符（如中文、日文等），但在处理纯英文文本时仍然非常有效。

局限性

它无法表示其他语言的字符和符号，这使得在处理多语言文本时变得困难。为了解决这个问题，人们开发了更广泛的字符编码系统，如Unicode及其各种编码方式（如UTF-8、UTF-16等），以支持世界上几乎所有的书写系统和符号。

GBK字符集

GBK概述

GBK全称是“汉字内码扩展规范”，是一种用于简体中文的字符编码方式，属于国家标准。它是对GB2312编码的扩展，旨在支持更多的汉字和符号，以满足中文信息处理的需求。

GBK的特点

字符集丰富：GBK编码包含了大约两万个汉字，以及标点符号、数字、英文字母等字符，远超过ASCII编码所能表示的字符数量。
双字节编码：在GBK编码中，每个中文字符被编码成两个字节的形式进行存储。这使得GBK能够表示更多的字符，同时也增加了编码的复杂性。
兼容ASCII：GBK编码是向下兼容ASCII编码的。这意味着，所有ASCII编码中的字符（包括英文字母、数字、标点符号等）在GBK编码中仍然保持原有的编码值，即这些字符在GBK编码中仍然占用一个字节。
第一位字节的特殊性：根据GBK的规定，汉字的第一个字节的第一位必须是1。这是一个重要的特征，用于在解析GBK编码时区分中文字符和其他字符（如ASCII字符）。

GBK的应用

GBK编码广泛应用于中文信息处理领域，包括计算机操作系统、网页编码、文本文件等。在早期的计算机系统中，GBK编码是处理中文文本的主要方式之一。随着Unicode编码的普及，GBK编码的使用逐渐减少，但在一些特定的应用场景中，如旧系统的维护、特定格式的文本文件处理等，GBK编码仍然发挥着重要作用。

Unicode字符集

定义与背景：

Unicode（统一码，也称万国码）是一个由国际组织制定的字符编码标准，旨在为全球各种语言和符号提供一个统一的编码方式。
它解决了传统字符编码系统（如ASCII）只能表示有限字符集的问题，特别是无法表示世界上所有语言和符号的局限性。

特点与功能：

全球性：Unicode可以容纳世界上所有文字、符号，包括各种语言的字母、数字、标点符号、特殊符号以及表情符号等。
统一性：它为每个字符分配了一个唯一的数字编号（称为码点），无论该字符属于哪种语言或符号系统。
非编码方式：重要的是，Unicode本身是一个字符集，它定义了字符及其对应的码点，但并不直接规定这些码点如何在计算机中存储或传输。这需要通过具体的编码方式来实现，如UTF-8、UTF-16、UTF-32等。

与UTF-32的比较：

UTF-32编码方式，它是Unicode的一种实现方式，使用四个字节（32位）来表示一个Unicode字符。
这种编码方式的好处是简单直接，因为每个Unicode码点都可以直接映射到一个固定的字节序列上，无需进行复杂的转换。
然而，UTF-32的缺点也很明显，即它会占用更多的存储空间，特别是在处理大量文本时，这可能会导致存储和传输成本的增加，同时也可能降低通信效率。

UTF-8编码

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码方式，它能够用1到4个字节表示每个符号，从而实现了对世界上几乎所有文字系统的编码。UTF-8具有与ASCII码向后兼容的特性，即ASCII编码中的字符在UTF-8中的编码方式保持不变，这使得UTF-8在处理英文和数字时非常高效。

UTF-8编码特点

可变长度：UTF-8编码的最大特点是其可变长度，它可以根据字符的需要使用1到4个字节进行编码。这种特性使得UTF-8在编码英文和数字时非常节省空间，同时又能支持大量的汉字和其他Unicode字符。
ASCII兼容：由于ASCII字符在UTF-8中的编码方式与其在ASCII码中的编码方式相同，因此UTF-8是ASCII兼容的。这意味着任何只包含ASCII字符的文本文件，都可以被当做UTF-8编码的文件来读取和处理，而不会出现乱码。
广泛应用：由于UTF-8的这些优点，它已经成为互联网上最广泛使用的字符编码方式之一。几乎所有的网页和文本文件都使用UTF-8编码，以确保在全球范围内的正确显示和交换。