关于UTF-8、GBK编码以及编译时charset的指定的一些总结

最新推荐文章于 2023-10-08 14:59:06 发布

Yumin_Wu

最新推荐文章于 2023-10-08 14:59:06 发布

阅读量1w

点赞数 6

分类专栏：基础知识文章标签： Linux 编码 charset gcc

本文链接：https://blog.csdn.net/Blazar/article/details/79253475

版权

基础知识专栏收录该内容

11 篇文章 0 订阅

订阅专栏

首先分清两个概念：C文件中（转换为16进制）汉字的编码，编译后bin文件中汉字的编码。

gcc的 -finput-charset 和 -fexec-charset 两个选项的存在就是为了实现这两者的转换。

1. 默认情况下，gcc使用UTF-8 charset。

2. C文件中使用GBK编码的汉字：若要使bin文件为UTF-8编码，必须同时指定 -finput-charset=GBK，-fexec-charset=UTF-8（不指定fexec-charset也是可以的，但是单独指定它无效，编译器会认为输入为UTF-8）。若要使bin文件为GBK编码，可以不指定charset，这样编译器就不会去做转换（它认为前后都是UTF-8），看起来就像是“骗过”了编译器；也可以同时指定 -finput-charset=GBK，-fexec-charset=GBK。

3. C文件中使用UTF-8编码的汉字：若要使bin文件为UTF-8编码，可以不指定charset；若要使bin文件为GBK编码，必须指定 -fexec-charset=GBK。当然，如果你想“欺骗”编译器：“我的C文件使用的是GBK编码”，而去指定-finput-charset=GBK，这时编译器可能不会像上面那种情况一样好骗，你可能收到这样一条答复：“cc1: error: failure to convert GBK to UTF-8”。

举个例子：我在程序中需要去调用HZK16（点阵字库），它是基于GBK编码的，所以，我希望我的bin文件中的汉字是GBK编码。我在UE编辑器中，使用GBK编码写了xxx.c，又使用UTF-8编码写了yyy.c，那么，我将可以用以下几种方式去编译它们：

对于xxx.c：

（1）gcc -o xxx xxx.c

（2）gcc -finput-charset=GBK -fexec-charset=GBK -o xxx xxx.c

对于yyy.c：

（1）gcc -fexec-charset=GBK -o yyy yyy.c

（2）gcc -finput-charset=UTF-8 -fexec-charset=GBK -o yyy yyy.c

总而言之，-finput-charset 用来指定 C文件中的文字编码格式，-fexec-charset 用来指定编译之后的可执行文件的文字编码格式；默认情况下，gcc编译器认为编译前后的文字编码格式都是UTF-8。

至于 “为什么要指定 -finput-charset 或者 -fexec-charset ?” ，那是可能你的程序中的某部分的操作必须依赖于某个特定的charset 。例如上文所说的，使用 HZK16 来获取汉字的位图等。

Yumin_Wu

关注

6
点赞
踩
29

收藏

觉得还不错? 一键收藏
4
评论
关于UTF-8、GBK编码以及编译时charset的指定的一些总结

首先分清两个概念：C文件中（转换为16进制）汉字的编码，编译后bin文件中汉字的编码。gcc的 -finput-charset和-fexec-charset两个选项的存在就是为了实现这两者的转换。1.默认情况下，gcc使用UTF-8 charset。2. C文件中使用GBK编码的汉字：若要使bin文件为UTF-8编码，必须同时指定 -finput-charset=GBK，-fe...
复制链接

扫一扫

专栏目录