深入解析UTF-8编码：规则、优点与应用

软考鸭

于 2024-08-05 11:00:22 发布

阅读量572

点赞数 3

分类专栏： nodejs帮助文档文章标签： node.js vim 编辑器

本文链接：https://blog.csdn.net/gusushantang/article/details/140921547

版权

nodejs帮助文档专栏收录该内容

106 篇文章 1 订阅

订阅专栏

UTF-8（Unicode Transformation Format-8 bits）是一种针对Unicode的可变长度字符编码，用以在单字节到四字节之间表示每一个Unicode符号，使全世界各种语言的字符都能在计算机中得到唯一且统一的表示。UTF-8编码的设计兼顾了兼容性和效率，它采用1到4个字节来表示一个符号，根据符号的Unicode码点大小而变化字节长度。

UTF-8编码规则

UTF-8编码的规则基于Unicode码点的范围，具体如下：

U+0000 到 U+007F：这些字符的码点与ASCII码表中的字符一一对应，因此UTF-8编码与ASCII编码在这些字符上是兼容的。每个字符用单个字节表示，字节的最高位设为0，后面7位表示码点。
U+0080 到 U+07FF：这些字符需要用两个字节表示。第一个字节的前三位设为110，后面五位与码点的高五位进行组合；第二个字节的前两位设为10，后面六位与码点的低六位组合。
U+0800 到 U+FFFF：这些字符（包括大多数常用字符，如中文、日文和韩文字符）需要用三个字节表示。第一个字节的前四位设为1110，后面四位与码点的高四位进行组合；接下来的两个字节的前两位都设为10，分别与码点的次高六位和低六位组合。
U+10000 到 U+10FFFF：这些字符（包括一些较少使用的字符、符号和表情符号）需要用四个字节表示。第一个字节的前五位设为11110，后面三位与码点的高三位进行组合；接下来的三个字节的前两位都设为10，分别与码点的次高六位、次次高六位和低六位组合。