之前也听过ASCII, ANSI,UNICODE, UTF-8等等之类的,但是之前由于本人不求甚解的态度,也没有去细究他们之间的来源和区别。直到最近工作需要,才去深入了解了一番,再次,将自己的学习所得写下来,一则是加强自己的理解,二则是让有相同的需求的人有一个参考。
首先要从他们的来源说起:
ASCII是由美国国家标准协会制定的标准编码,每个ASCII码占一个字节,总共有128个编码,包括一些可打印的字符以及一些不能打印的字符等等。
但是随着计算机的发展,世界各国都有了大量的计算机用户,由于语言的问题,那128字节不能传达每个国家的各种语言信息。因此,各个国家(主要是东亚国家,如中国、韩国和日本等)拥有了自己的一套编码,这就是ANSI编码,每个ANSI编码占两个字节(0x80~0xFF)。但是由于ANSI是各个国家单独制定的,这就导致了同一个编码在一个ANSI下表示的是这种字符,而在另一个国家的ANSI下表示的确是另一种代码,这给信息在各个国家的传播带来了不便。
Unicode又称万国码,其实将各个国家的文字统一到一个编码中来,这就是unicode编码,每个unicode编码占两个字节。
但是各个国家从ANSI转换到unicode中来是需要时间的,因此就产生了这两个编码的中间编码,也就是UTF编码。而UTF编码又根据其占的位数分为UTF-8,UTF-16,UTF-32。其中UTF-8编码每个编码的长度不定。这是为了节省字符串的存储空间。
而对于编程来说,ASCII编码在C语言书中有很多叙述。
在标准C中,wchar_t定义的字符串,每一个字符串都是以unicode编码形式存储的。而如果没有特别声明,则字符串是根据本地的字符集存储的(如果本地字符集是UTF-8,则是UTF-8编码)。
Unicode字符是不支持直接打印的,如果需要打印unicode编码形式的字符,则控制输出需要使用“%ls”,此时如果使用wprintf,则不需要转换即可输出。如果使用的是printf,则需要转换为setlocal函数设定的本地编码才能正常输出,而这种转换时隐式调用的。
而如果要使用printf+s%输出则,必须先显示调用wcstombs,将其转换为setlocale设定的本地字符才能打印出来。
如下代码所示:
int _tmain(int argc, _TCHAR* argv[])
{ wchar_t temp_str[] = L"中文";
char temp_ansi[12] = {0};
setlocale(LC_ALL, "chs");
wprintf(L"%ls\n", temp_str);
printf("%ls\n", temp_str);
wcstombs(temp_ansi, temp_str, sizeof(temp_ansi));
printf("%s\n", temp_ansi);
return 0;
}