Unicode 及其编码

Unicode 是在计算机中使用的一种字符编码,其出现是为了统一编码世界上所有的文字,符号。使之能在同一台计算机上正常显示,而不出现乱码。

早期计算机使用的是ASCII 编码,仅仅使用一个字节中的7 bit 来编码,其中编码了英文中使用的字母,数字,标点符号和一些不可见字符,如空格、回收等。后来扩展的ASCII 使用了一个字节的所有8 bit , 兼容之前的ASCII 编码,并提供一些控制字符。

但世界上语言上千种,每种语言有其自己的文字,符号。中文、法文、韩文、日文等。8 bit 只能编码256 个码位,不可能将这些文字都编进去。于是各国纷纷定义了本国文字的计算机编码。如中国使用的GBK 和GB2312,其使用2 byte 编码一个字符,这样能容纳下65536个码位,并且可以兼容之前的256 个 ASCII 扩展。但是问题来了,当这些编码在本国计算机中使用时,可以很好地工作,但当在一台计算机上要同时显示中文、法文时,出现了乱码。如 在中国的一台计算机,打开一个包含有法文和日文的文档时,使用的是GBK 编码,但GBK 编码定义了汉子,并没有编码法文和日文,将法文和日文的数据用GBK 解码,只能得到乱码。

于是有人希望将这些杂乱的编码方式使用一种同意的编码,将所有的文字符号都编码进去。历史上存在两个独立的尝试创立单一字符集的组织,一个是ISO, 一个是多语言软件制造商组成的统一码联盟。最后这两个组织合作,编制了统一的字码 。目前Unicode 使用的是ISO 10646-1的UCS字符集,其码位从0 —— 10FFFFh ,超出部分将不予赋值。

ISO 编制的UCS 编码有UCS-2 / 4 等计算机编码方式。

UCS-4 中每一

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值