编程杂记

最新推荐文章于 2023-09-23 17:21:18 发布

ddq58011

最新推荐文章于 2023-09-23 17:21:18 发布

阅读量79

点赞数

原文链接：http://www.cnblogs.com/jiahu-Blog/p/4853052.html

版权

字符编码问题

1. 字符编码问题 [Index]

ASCII

A上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。SCII码一共规定了128个字符的编码，比如空格"SPACE"是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。
GB2312

简体中文常见的编码方式是GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示256x256=65536个符号(两个字节可以表示2^^16 = 65536个汉字j)。注意GB编码和unicode编码和utf-8编码没有关系。
unicode

unicode 将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。但是需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
UTF-8
互UTF-8是Unicode的实现方式之一。联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16（字符用两个字节或四个字节表示）和UTF-32（字符用四个字节表示），不过在互联网上基本不用。
UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。
UTF-8的编码规则很简单，只有二条：
1. 对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2. 对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。
  下表总结了编码规则，字母x表示可用编码的位。
  Unicode符号范围 | UTF-8编码方式
  (十六进制) | （二进制）
  --------------------+---------------------------------------------
  0000 0000-0000 007F | 0xxxxxxx
  0000 0080-0000 07FF | 110xxxxx 10xxxxxx
  0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
  0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Unicode与UTF-8之间的转换（很多文本编辑软件都有下面的选项）
1. ANSI是默认的编码方式。对于英文文件是ASCII编码，对于简体中文文件是GB2312编码（只针对Windows简体中文版，如果是繁体中文版会采用Big5码）。
2. Unicode编码指的是UCS-2编码方式，即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。
3. Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。
4. UTF-8编码，也就是上一节谈到的编码方法。
5. Little endian和Big endian
  
  上一节已经提到，Unicode码可以采用UCS-2格式直接存储。以汉字"严"为例，Unicode码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25。存储的时候，4E在前，25在后，就是Big endian方式；25在前，4E在后，就是Little endian方式。
UTF-16

UTF-16 使用两字节的无符号整型来保存字符，这是Unicode的另一种保存形式。当然了无法使用这16个位来表示所有的字符，但是当字符集已经确定而且可以使用16位表示时，使用UTF-16可以节省存储空间（特别是东亚字符集）。当UTF-16无法表示某些字符时，其是可以扩展的，扩展的形式见http://blog.csdn.net/mylinx/article/details/6874414。
UTF-16 LE是windows上默认的Unicode编码方式，使用wchar_t表示。所有wchar_t *类型的字符串(包括硬编码在.h/.cpp里的字符串字面值)，VC都自动采用UTF-16的编码。UTF-16的劣势没有统一的表示UTF-16编码的字符类型。C++98/03里对wchar_t的定义是非常宽泛的。这导致在Windows平台上，wchar_t是2字节的；在Unix-like系统上是4字节的。