一、一个正常的C程序
第一步,在Windows 10环境下,使用Notepad++编写如下源代码,并保存到文件main.c当中。
#include <stdio.h>
int main(void)
{
puts("China");
puts("中国");
return 0;
}
这段代码的意思,是在控制台输出两个字符串,一个是China,另一个是中国。
第二步,使用如下gcc(gcc 8.2.0,下同)命令编译上述源代码,生成可执行文件main.exe。
gcc main.c -o main.exe
第三步,运行刚刚生成的main.exe,输出结果如下。
China
中国
上述程序代码和输出结果如预期一般,一切正常。下面我们再来看一个程序。
二、一个“不正常”的C程序
第一步,在Windows 10环境下,使用Notepad++编写如下源代码,并保存到文件main.utf8.c当中。
#include <stdio.h>
int main(void)
{
puts("China");
puts("中国");
return 0;
}
这段代码跟上面的程序代码完全相同。但是,跟上一个程序不同的是,这次保存文件main.utf8.c时选择的源文件字符集编码格式是UTF-8。
第二步,使用如下gcc命令编译上述源代码,生成可执行文件main.utf8.exe。
gcc main.utf8.c -o main.utf8.exe
第三步,运行刚刚生成的main.utf8.exe,输出结果如下。
China
涓浗
可以看到,这次的输出与上一个程序的输出不同。字符串China如预期一样正常输出了,但是中国这两个字并没有被输出,取而代之的是输出了涓浗这几个奇怪的字符。
同样的源代码,怎么源文件的字符编码不同,输出结果就不同了呢?
三、源文件的字符编码
既然是源文件编码不同导致了输出结果不同,那就首先来看一下两个源文件的内容