国际编码与中文字符

Windows操作系统使用 ASCII 码对应各种字符,每个 ASCII 码对应一个 Unicode 码。 ASCII 码从 \u0000 \u007F(0-127) 128 个字符,英文字符均在其中,其二进制表示为 0xxxx xxxx ,扩展 128 个字符为 \u0080-\u00FF(128-255) ,二进制表示为 1xxx xxxx

Unicode又称UCS(UnicodeCharacter Set),是一种字符编码方法,由一个字节表示(0x00-0xff),其即对应ASCII码,如\u0041对应英文字符’A’,

Unicode为全世界通用编码,为了能够表示出两个字节的中文字符,采用了两个字节编码,称为UCS-2,而UCS还有采用四个字节编码的UCS-4

UCS-2GB2312编码类似,使用两组16进制的编码合成一个字符,如汉字UCS-2(一般直接称为Unicode) \u554A,以此类推,其他中文字符在Unicode中的编码亦用此种形式保存。UCS-4 32位二进制表示,而实际上最高位必须为0,因此UCS-4可以表示2^31 个字符。UCS-4 的四个字节中根据最高字节分成2^7group,每个group根据次高字节分为2^8plane,每个panel根据次低字节分为2^8rows,每个rows包含2^8cells。而groupplane均为0的码称为BMP(Basic Multilingual Plane),即是UCS-4中高两个字节为0的编码为BMP。目前UCS-4还未有分配在BMP范围之外的字符。

中文字符常用的编码为GB2312

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值