国内字符集标准以及国际标准

最近看到国内有多种字符集标准,出于好奇就简单查了查,搞清楚概念才不至于混乱,如下:

GB为国家强制性国家标准,国标,中国国家编码。

1、 GB2312:标准号GB2312-1980。
《信息交换用汉字编码字符集 基本集》,简体中文的地区是强制使用的唯一中文编码。

2、 GB13000:标准号GB13000-1993。
《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》 特点:Unicode规范。

3、 GBK:汉字国标扩展码。GB2312+Unicode CJK
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准,1995年完成。特点:简、繁体字融于一库。

4、 GB18030:标准号GB18030-2000和GB18030-2005
《信息交换用汉字编码字符集基本集的扩充》主要增加了少数民族的文字。
GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。
GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

说明:上面是按照旧到新排序的,兼容模式:新兼容旧。
数据库使用方面:
国内一般使用ZHS16GBK。
台湾香港等地使用big5编码--繁体中文。
日本使用SJIS编码--日文。
英文使用US7ASCII编码。
建议:采用国际编码UTF-8


Unicode:(统一码、万国码、单一码)是一种在计算机上使用的字符编码。

Universal Character Set,UCS(通用字符集) UCS-2用两个字节编码,UCS-4用4个字节编码。

Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)
UTF-8、UTF-16、UTF-32。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。
UTF-16:基本多语言平面内定义的符号使用2个字节表示,在此之外的字符(其他平面内的字符),则使用4个字节表示。
UTF-32:是一种将Unicode字符编码的协定,对每一个Unicode码位使用恰好32位元,每个字符都使用4字节。

关于字符集的介绍,写的很详细了:
http://blog.csdn.net/tianlesoftware/archive/2009/12/02/4915223.aspx

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24070945/viewspace-697896/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/24070945/viewspace-697896/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值