搞清楚字符编码06-万国码[2]

这篇博客介绍理论编码ucs4

编码范围
  • ucs4共有4个字节,理论允许的编码范围为
    00000000 00000000 00000000 00000000

    11111111 11111111 11111111 11111111
  • 但最高位没有用,始终是0,所以实际的编码范围为
    00000000 00000000 00000000 00000000

    01111111 11111111 11111111 11111111
组、平面、行、码位
概念
  • 第一个字节称为
  • 第二个字节称为平面
  • 第三个字节称为
  • 第四个字节称为码位
个数
  • 组从0000000001111111,共有 2 7 = 128 2^7=128 27=128个组。
  • 平面、行、码位类推,像平面共有 2 8 = 256 2^8=256 28=256个平面
范围
  • 组的范围就是除组之外后边几个bit的范围,所以每个组的范围都是0至 2 24 2^{24} 224
  • 例如2组就是:00000010 00000000 00000000 0000000000000010 111111111 111111111 111111111
  • 平面、行、码位类推,码位就只有256个码位,没有范围之说了。
ucs4的0组17个平面
规定
  • 统一码联盟规定,ucs4中目前只使用0组的17个平面进行编码,也就是从0组的0号平面编码到0组的第16号平面.
  • 即所允许的编码范围为
    00000000 00000000 00000000 00000000

    00000000 00010000 11111111 11111111
  • 每个平面有65536个编码,共17个平面,也就是说允许的编码有17×65536=1,114,112‬个.
17个平面也没有用完
  • 目前实际编码的字符有238605个,这17个平面也没有用完.
  • 这些字符分布在平面0、平面1、平面2、平面14、平面15、平面16上,且每个平面也没有都用完,都有空闲的部分.
  • 其中平面15和平面16是专用区,如果以后再发明了某种字符且被世界认可,就在这两个平面编码.
BMP编码
  • BMP编码就是UCS4中0组0平面的范围
  • 也就是00000000 00000000 xxxxxxxx xxxxxxxx
  • 它其实就是UCS2理论编码,因为是理论编码,前边的0存在不存在都无所谓.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值