ccs 中文乱码_Unicode 字符编码模型_已编码字符集(CCS)

最新推荐文章于 2024-06-10 23:13:44 发布

iRent香港租房

最新推荐文章于 2024-06-10 23:13:44 发布

阅读量1.3k

点赞数

文章标签： ccs 中文乱码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35135480/article/details/113378526

版权

因为计算机硬件只能识别二进制数据，可抽象字符本身并不包含数值信息，所以导致计算机硬件无法识别抽象字符。为了解决这个问题，我们需要为抽象字符绑定数值信息，也就是在字符和码点间建立起映射关系，Unicode 标准中将这种映射关系称为"已编码字符"。

"已编码字符"在术语表中的正式定义是：抽象字符和码点之间的映射。这听起来有点拗口，也不便于理解，通常我们只需将"已编码字符"理解为与对应码点一同使用的抽象字符。已编码字符集则是已编码字符的集合，其中的每个字符都拥有相应的码点。

另外，在大多数语境中通常会将"已编码字符"简写为：字符集(character set)、charset 或编码集(code set)。

1. 相关术语

1.1 码点

码点 (code point) 是指"已编码字符集"中某个字符的值或位置。一个"已编码字符集"一般可以用一至多张二维表来表示，二维表中行与列交叉的点称之为码点，每个码点分配一个唯一的编号，称之为码点值或码点编号。除开某些特殊区域(比如代理区、专用区)的非字符码点和保留码点，每个码点唯一对应于一个字符。

码点可以是编码空间 (codespace) 中的任意值，对 Unicode 标准而言，可以是 0 ~ 0x10FFFF 中的任意值。Unicode 标准中将码点分为 7 种基础类型：Graphic、Format、Control、Private-Use、Surrogate、Noncharacter、Reserved。

在 Unicode 标准中，码点采用 16 进制书写，并加上前缀 U+ (例如，拉丁字母 A 的码点是 U+0041 )。Unicode

最低0.47元/天解锁文章

iRent香港租房

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ccs 中文乱码_Unicode 字符编码模型_已编码字符集(CCS)

因为计算机硬件只能识别二进制数据，可抽象字符本身并不包含数值信息，所以导致计算机硬件无法识别抽象字符。为了解决这个问题，我们需要为抽象字符绑定数值信息，也就是在字符和码点间建立起映射关系，Unicode 标准中将这种映射关系称为"已编码字符"。"已编码字符"在术语表中的正式定义是：抽象字符和码点之间的映射。这听起来有点拗口，也不便于理解，通常我们只需将"已编码字符"理解为与对应码点一同使用的抽象字...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。