Unicode编码小结

Unicode编码

一.ASCLL码

  • ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/IEC 646。到目前为止共定义了128个字符
  • 使用一个字节,8位二进制数,使用后7位二进制数组合表示128种(27)(0-127)字符,最高位为奇偶校验位。

二.码点与代码单元

  • 码点

    • 码点指与一个编码表中的某个字符对应的代码值(可以理解为编号),我们将这个代码值(编号)称为代码点,类比于**ASCII码,码点就好比字符所对应的ASCII**值
    • 可以理解为字符,一个代码点就是一个字符
  • 代码单元

    • 代表最小的可用来识别一个合法字符的最小字节数
    • 码点由若干代码单元构成
    • 不同编码,代码单元长度不一样
      • UTF-8 :使用变长的字节序列来表示字符,代码单元由 8 位(1字节)组成,字符使用1-4个字节表示,即一个码点由1-4个代码单元组成
      • UTF-16 :使用变长的字节序列来表示字符,代码单元由 16 位(2字节)组成,字符使用2个或者4个字节表示,即一个码点由1-2个代码单元组成
      • UTF-32 :使用定长的字节序列来表示,代码单元由32位(4字节)组成,字符使用4个字节表示,即一个码点由1个代码单元组成
      • GB18030 中的代码单元由 8 位(1字节)组成
    • UTF-16编码采用不同长度的编码表示所有Unicode码点,在基本多语言平面,每个字符用16位表示,通常称为代码单元
    • length方法返回采用UTF-16编码表示的给定字符串所需要的代码单元数量
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

F_WORKS

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值