浅谈编码问题

最新推荐文章于 2024-06-01 14:37:13 发布

YYYYYEEEETTTTTTTEEEE

最新推荐文章于 2024-06-01 14:37:13 发布

阅读量544

点赞数

分类专栏：编程语言

本文链接：https://blog.csdn.net/YYYYYEEEETTTTTTTEEEE/article/details/50413620

版权

编程语言专栏收录该内容

1 篇文章 0 订阅

订阅专栏

之前也听过ASCII, ANSI,UNICODE, UTF-8等等之类的，但是之前由于本人不求甚解的态度，也没有去细究他们之间的来源和区别。直到最近工作需要，才去深入了解了一番，再次，将自己的学习所得写下来，一则是加强自己的理解，二则是让有相同的需求的人有一个参考。

首先要从他们的来源说起:

ASCII是由美国国家标准协会制定的标准编码，每个ASCII码占一个字节，总共有128个编码，包括一些可打印的字符以及一些不能打印的字符等等。

但是随着计算机的发展，世界各国都有了大量的计算机用户，由于语言的问题，那128字节不能传达每个国家的各种语言信息。因此，各个国家(主要是东亚国家，如中国、韩国和日本等)拥有了自己的一套编码，这就是ANSI编码，每个ANSI编码占两个字节（0x80~0xFF）。但是由于ANSI是各个国家单独制定的，这就导致了同一个编码在一个ANSI下表示的是这种字符，而在另一个国家的ANSI下表示的确是另一种代码，这给信息在各个国家的传播带来了不便。

Unicode又称万国码，其实将各个国家的文字统一到一个编码中来，这就是unicode编码，每个unicode编码占两个字节。

但是各个国家从ANSI转换到unicode中来是需要时间的，因此就产生了这两个编码的中间编码，也就是UTF编码。而UTF编码又根据其占的位数分为UTF-8,UTF-16,UTF-32。其中UTF-8编码每个编码的长度不定。这是为了节省字符串的存储空间。

而对于编程来说，ASCII编码在C语言书中有很多叙述。

在标准C中，wchar_t定义的字符串，每一个字符串都是以unicode编码形式存储的。而如果没有特别声明，则字符串是根据本地的字符集存储的（如果本地字符集是UTF-8，则是UTF-8编码）。

Unicode字符是不支持直接打印的，如果需要打印unicode编码形式的字符，则控制输出需要使用“%ls”，此时如果使用wprintf，则不需要转换即可输出。如果使用的是printf，则需要转换为setlocal函数设定的本地编码才能正常输出，而这种转换时隐式调用的。

而如果要使用printf+s%输出则，必须先显示调用wcstombs，将其转换为setlocale设定的本地字符才能打印出来。

如下代码所示：

int _tmain(int argc, _TCHAR* argv[])

{ wchar_t temp_str[] = L"中文";

char temp_ansi[12] = {0};

setlocale(LC_ALL, "chs");

wprintf(L"%ls\n", temp_str);