计算机里的unicode编码和UTF-8的关系

一、unicode的基本信息

目前的统一码字符分为17组编排,每组称为平面(Plane),每平面有65536(216)点代码,但目前只用了少数平面。

Unicode采用16位编码,也就是每个代码点由16位二进制数表示,65536这个数值在计算机科学中具有特殊的含义。它是2的16次方,也就是说,用16个二进制位可以表示的不同取值的数量。

相关参考文档:

unicode发展背景https://zh.wikipedia.org/wiki/Unicode

unicode基本设计https://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84

unicode通用字符集https://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86

二、unicode和utf-8的关系

首先强调一下以下几个概念的区别:

  1. 字符:就是我们看到的一个字母或一个汉字、一个标点符号都叫字符。如上边的汉字“一”就是一个字符。
  2. 字符码:在指定的字符集中,一个字符对应唯一一个数字,这个数字就叫字符码。如字符“一”,在 Unicode 字符集中,对应的字符码为 \u4e00
  3. 字符集:规定了字符和字符码之间的对应关系。
  4. 字符编码:规定了一个字符码在计算机中如何存储,utf-8就是字符编码。

UTF-8(Unicode Transformation Format-8)是一种编码方案,它用于将Unicode字符编码为字节序列以便存储和传输。UTF-8使用变长编码方式,根据字符的不同范围使用不同长度的字节表示字符。UTF-8编码方案能够表示Unicode字符集中的所有字符,并且兼容ASCII字符集。

在UTF-8编码中,ASCII字符使用一个字节表示,而非ASCII字符(如中文、日文、韩文等)使用多个字节表示。这种编码方式使得UTF-8在存储和传输文本数据时既能保持兼容性,又能有效地节省空间。

在编程中,我们使用Unicode字符集来表示字符,并使用UTF-8编码方案将字符转换为字节序列进行存储和传输。这两者在编程中是密切相关的,但它们是独立的概念,没有关闭的操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值