utf-8 utf-16 utf-32他们的相同字符, 这几个字符集的码点是相同, 但是字节序列不同, 是这样的吗

洪宏鸿

已于 2023-04-01 10:25:53 修改

阅读量120

点赞数

分类专栏： java基础文章标签： java

于 2023-04-01 00:12:30 首次发布

本文链接：https://blog.csdn.net/HongZeng_CSDN/article/details/129891182

版权

76 篇文章 2 订阅

订阅专栏

utf-8 utf-16 utf-32他们的相同字符, 这几个字符集的码点是相同, 但是字节序列不同, 是这样的

UTF-8、UTF-16 和 UTF-32 都是 Unicode 字符集的不同编码方式。它们的码点（即字符的唯一数字表示）是相同的，但是用于存储和传输这些字符的字节序列是不同的。

简单来说：

UTF-8：这是一种变长的编码方式，使用1到4个字节表示一个字符。ASCII字符仅使用1个字节，而其他字符可能需要2到4个字节。UTF-8具有向后兼容ASCII的优点。
UTF-16：这是另一种变长的编码方式，使用2个或4个字节表示一个字符。基本多文种平面（BMP）内的字符使用2个字节编码，而其他平面的字符使用4个字节编码（即代理对）。
UTF-32：这是一种固定长度的编码方式，每个字符都使用4个字节表示。这意味着每个字符的存储和处理方式相对简单，但可能浪费存储空间。

虽然这三种编码方式表示相同的字符集，但它们在存储和传输时的字节序列和空间占用上有所不同。接下来，我将更详细地介绍这三种编码方式：

UTF-8：
UTF-8是一种变长编码，每个字符可以使用1到4个字节表示。UTF-8的主要优点是它与ASCII编码向后兼容。也就是说，所有ASCII字符在UTF-8中具有相同的字节值，这使得处理ASCII文本时不需要进行任何转换。UTF-8还具有在处理多语言文本时较小的存储空间需求。对于那些主要使用ASCII字符的文本，UTF-8编码可以节省空间。然而，对于那些使用非拉丁字母的语言（如中文、日文、韩文等），UTF-8编码可能会导致较大的存储空间需求，因为这些字符可能需要3到4个字节来表示。
UTF-16：
UTF-16也是一种变长编码，使用2个或4个字节表示一个字符。UTF-16相较于UTF-8的主要优势在于，它可以更紧凑地表示许多非拉丁语系的字符。基本多文种平面Java的char类型确实使用两个字节（16位）存储，但它实际上存储的是Unicode字符集中基本多文种平面（BMP）范围内的字符的UTF-16编码。基本多文种平面包括了U+0000到U+FFFF的码点。

Java的char类型可以表示大部分常用字符，但对于那些在辅助平面（例如U+10000到U+10FFFF）的字符，Java使用代理对（surrogate pair）来表示。代理对是两个连续的char值

关注