Unicode编码

最新推荐文章于 2024-07-30 21:05:26 发布

baozixiaopu

最新推荐文章于 2024-07-30 21:05:26 发布

阅读量1.2k

点赞数 2

文章标签： Unicode BMP 编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paozixiaopu/article/details/86412938

版权

简介

Unicode（世界统一码）是由世界统一码联盟制定的一套字符编码，其中包含了世界绝大部分的语言文字，还包含了表情文字。在Unicode 2.0之后（最新Unicode 11.0），Unicode编码与UCS（Universal Coded Character Set）基本保持一致。Uincode 版本列表，点击查看。

Unicode 编码提供了一组基本单元编码，为每个基本单元分配一个唯一的编码点（Code Point）。一个文本元素是有一个或多个基本单元组成。例如法语中的Ç 可以看做是由 C 和¸ 组合成的。

名词解释

Basic Multilingual Plane (BMP) 基础多语言层面
Supplementary Multilingual Plane (SMP) 多语言补充层皮
Supplementary Ideographic Plane (SIP) 表意文字补充平面
Supplementary Special-purpose Plane (SSP）特别用途补充平面
Private Use Area-A Plane (PUA-A) 私人使用区-A平面
Private Use Area-B Plane (PUA-B) 私人使用区-B平面
CJK 中国、日本、韩国三个国家的简称
CJKV 中国、日本、韩国、越南四个国家的简称
RTL right-to-left 从右到左
BE big-endian 大端序列，高位在前（低地址），低在后（高地址）
LE little-endian 小端序列，一个单元在计算机中的存放时按照低位在前（低地址），高位在后（高地址）的模式存放。

分配情况

整体

BMP 分配情况

图片截自UnicodeStandard-11.0.pdf

基础层面中D800-DFFF 区间为代理区间，区间内的代码点不表示任何字符。一个UTF-16编码只能表示BMP中的字符，无法表示BMP外的其他层面。通过代理区我们可以使用两个UTF-16编码来表示BMP外层面的一个字符。

SMP 分配情况

图片截自UnicodeStandard-11.0.pdf

编码的实现方式

计算机处理信息的最小单元为字节，而一个字节无法表示Unicode中的所有字符。为了表示所有的字符，就需要一种实现方式将Unicode中的字符编码转换为计算机可以处理的字节序列。

Unicode编码的实现方式有：

UTF-8
UTF-16
UTF-32

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。