几句话说常用字符集

1. ASCII码

ASCII码是用一字节(Byte),即8个二进制数(8Bit)来表示的字符编码。ASCII是20世纪60年代由美国制定的字符编码,包括英文大小写字母、数字及打印控制符号共128个字符(ASCII首位规定为0,只使用后面的7位二进制即128个字符)。

 

2.Unicode编码

ASCII码只包括了英文字符,但对于其它语言确有各自的编码规范且不互相通用。 比如:简体汉字使用的是GB2312编码,繁体汉字使用的BIG5编码。由于没有统一的规范,用BIG5编码写的软件在使用其它编码(GB2312)的平台上运行时,文字不能正常显示,用户看到的就是乱码。

Unicode是提出一种统一的编码规范用来解决这样的问题。

 

3. UTF-8、UTF-16、UTF-32

在Unicode中,有很多种实现方式。包括:UTF-8、UTF-16、UTF-32。

标准的Unicode编码采用的是UTF-16编码。

UTF是“UCS Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。

例如,“汉字”对应的数字是0x6c49和0x5b57,而编码的程序数据是:

  BYTEdata_utf8[] = {0xE6,0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8编码

  WORDdata_utf16[] = {0x6c49,0x5b57}; // UTF-16编码

  DWORDdata_utf32[] ={0x6c49, 0x5b57}; // UTF-32编码

  这里用BYTE、WORD、DWORD分别表示无符号8位整数,无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个WORD,大小是4个字节。“汉字”的UTF-32编码需要两个DWORD,大小是8个字节。

 

4. 编程语言中的编码

对于JAVA/.NET等这些“新”的语言来说,内置的字符串所使用的字符集已经完全是UNICODE。

在vc 2010中开发应用程序可以选择三种编码方式: No set,Multi-Byte Character Set和Unicode Character Set。

1) No set:默认采用ASCII编码
2) multi-byte character set(MBCS):多字节字符集,字符的大小是可变的;一个MBCS编码包含一些一个字节长的字符,而另一些字符大于一个字节的长度。
3) Unicode:一种所有的字符都使用两个字节编码的编码模式。

更多内容请参考原文: http://blog.163.com/dujinhui1988@126/blog/static/14028002720114141012541/

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值