Java 的 char 是两个字节，是怎么存 Utf-8 的字符的？

最新推荐文章于 2022-07-08 14:32:36 发布

fy9987899

最新推荐文章于 2022-07-08 14:32:36 发布

阅读量1.1k

点赞数

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/fy9987899/article/details/105488016

版权

java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

1. 字符集

计算机只认识“0101”这样的数字，为了在计算机上表示人类所认识的字符，就需要有明确的转换规则，于是便有了字符集。

字符集（Character set）是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集名称：ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字，就需要进行字符编码，以便计算机能够识别和存储各种文字。中文文字数目大，而且还分为简体中文和繁体中文两种不同书写规则的文字，而计算机最初是按英语单字节字符设计的，因此，对中文字符进行编码，是中文信息交流的技术基础。

2. ASCII字符集

ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准ISO/IEC 646。ASCII第一次以规范标准的类型发表是在1967年，最后一次更新则是在1986年，到目前为止共定义了128个字符。

ASCII最初是美国国家标准,后成为国际标准。1个字节表示1个字符。

3. Unicode

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。

Unicode是容纳世界所有文字符号的国标标准编码，使用四个字节为每个字符编码。