计算机中的字符编码

计算机中的字符编码


ASCII: 美国信息交换标准代码(American Standard Code for Information Interchange), 基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统。


GB2312: 国标2312编码, 单双字节编码,单字节0~127用于兼容ASCII,双字节表示中文简体字符集,一共收录了7445个字符,包括6763个汉字和682个其它符号。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。


GBK: 国标扩展编码, 单双字节编码,是GB2312编码的扩充,GBK1.0收录了21886个符号,扩充了包括中文繁体及国家标准GB13000-1中的全部中日韩汉字。


GB18030: 国标18030编码, 单双四字节编码,是GBK编码的扩充,其中单双字节和GBK是完全兼容的。覆盖中文、日文、朝鲜语和藏文、蒙文、维吾尔文等主要的少数民族文字。


GB编码: 即GB2312,GBK,GB18030等国标码的通称,按发展史排ASCII->GB2312->GBK->GB18030,完全向下兼容。


BIG5: 大五码, 台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。


Unicode: 是一种字符编码方法, 由国际组织设计, 可以容纳全世界所有语言文字的编码方案. Unicode的学名是"UniversalMultiple-Octet Coded Character Set". 简称为UCS。UCS可以看作是"Unicode CharacterSet"的缩写。有UCS-2(双字节编码)、UCS-4(四字节编码)。不兼容ASCII。


UTF: 统一码传输编码(Unicode/UCS Transformation Format), 是UCS的传输编码方案总称, 常见的UTF规范包括UTF-8、UTF-7、UTF-16。


UTF8: 统一码传输编码方案的一种, 以8位为单元对UCS进行编码, ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte。


ANSI: 美国国家标准学会的标准码(American National Standards Institute),为了扩充ASCII编码,以用于显示本国的语言的字符编码规范,不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种延伸编码方式,称为ANSI编码,也称为MBCS编码(多字节字符集)。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。


MBS: 多字节字串(Multi-Byte String), 变长编码方案, 遵循ANSI字符编码规范, 主要用于字符串的储存和传输, 编码类型有ASCII,GB,BIG5,UTF-8。相关C函数strlen,strcmp,strcpy,strcat,strdup


WCS: 宽字符字串 (Wide-Character String), 定长编码方案, 遵循UNICODE字符编码规范, 主要用于内部处理(如字符编码转换中间处理), 编码类型有UCS-2(windows),UCS-4(linux)。相关C函数wcslen,wcscmp,wcscpy,wcscat,wcsdup,wcstombs,mbstowcs


字符编码规范: ANSI,UNICODE,MBS,WCS
实际编码方法: ASCII,GB2312,GBK,GB13080,BIG5,JIS,UTF8,UCS2,UCS4
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值