几句话说常用字符集

最新推荐文章于 2021-09-26 14:31:19 发布

写代码的汪星人

最新推荐文章于 2021-09-26 14:31:19 发布

阅读量404

点赞数

分类专栏：编程相关

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunleixia/article/details/8115248

版权

编程相关专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. ASCII码

ASCII码是用一字节(Byte),即8个二进制数(8Bit)来表示的字符编码。ASCII是20世纪60年代由美国制定的字符编码，包括英文大小写字母、数字及打印控制符号共128个字符（ASCII首位规定为0，只使用后面的7位二进制即128个字符）。

2.Unicode编码

ASCII码只包括了英文字符，但对于其它语言确有各自的编码规范且不互相通用。比如：简体汉字使用的是GB2312编码，繁体汉字使用的BIG5编码。由于没有统一的规范，用BIG5编码写的软件在使用其它编码（GB2312）的平台上运行时，文字不能正常显示，用户看到的就是乱码。

Unicode是提出一种统一的编码规范用来解决这样的问题。

3. UTF-8、UTF-16、UTF-32

在Unicode中，有很多种实现方式。包括：UTF-8、UTF-16、UTF-32。

标准的Unicode编码采用的是UTF-16编码。

UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。

例如，“汉字”对应的数字是0x6c49和0x5b57，而编码的程序数据是：

　　BYTEdata_utf8[] = {0xE6,0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8编码

　　WORDdata_utf16[] = {0x6c49,0x5b57}; // UTF-16编码

　　DWORDdata_utf32[] ={0x6c49, 0x5b57}; // UTF-32编码

　　这里用BYTE、WORD、DWORD分别表示无符号8位整数，无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个WORD，大小是4个字节。“汉字”的UTF-32编码需要两个DWORD，大小是8个字节。

4. 编程语言中的编码

对于JAVA/.NET等这些“新”的语言来说，内置的字符串所使用的字符集已经完全是UNICODE。

在vc 2010中开发应用程序可以选择三种编码方式: No set,Multi-Byte Character Set和Unicode Character Set。

1) No set：默认采用ASCII编码
2) multi-byte character set（MBCS）：多字节字符集，字符的大小是可变的；一个MBCS编码包含一些一个字节长的字符，而另一些字符大于一个字节的长度。
3) Unicode：一种所有的字符都使用两个字节编码的编码模式。

更多内容请参考原文： http://blog.163.com/dujinhui1988@126/blog/static/14028002720114141012541/

写代码的汪星人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
几句话说常用字符集

1. ASCII码ASCII码是用一字节(Byte),即8个二进制数(8Bit)来表示的字符编码。ASCII是20世纪60年代由美国制定的字符编码，包括英文大小写字母、数字及打印控制符号共128个字符（ASCII首位规定为0，只使用后面的7位二进制即128个字符）。 2.Unicode编码ASCII码只包括了英文字符，但对于其它语言确有各自的编码规范且不互相通用。比如：简体汉字使
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。