C++程序中的三种编码

最新推荐文章于 2024-08-07 22:39:33 发布

LaugustusJ

最新推荐文章于 2024-08-07 22:39:33 发布

阅读量1.6k

点赞数

分类专栏：编程 C/C++基础知识 MFC/Windows 个人小结 Linux/server QT

本文链接：https://blog.csdn.net/qq_16334327/article/details/87854556

版权

编程同时被 3 个专栏收录

216 篇文章 2 订阅

订阅专栏

MFC/Windows

106 篇文章 3 订阅

订阅专栏

个人小结

76 篇文章 0 订阅

订阅专栏

参考文章：https://www.cnblogs.com/gtarcoder/p/4979017.html

程序中的编码分类：

1.程序源文件编码
程序源文件编码是指保存程序源文件内容所使用的编码方案，该编码方案可在保存文件的时候自定义。
通常在简体中文windows环境下，各种编辑器（包括visual studio）新建文件缺省编码都是GB18030，所以不特别指定的话，windows环境下的c++源文件的编码通常为GB18030（GB18030兼容GBK）；在linux环境下，默认的为UTF-8编码。

2.c++程序内码
源程序编译后，c++中的字符串常量变成一串字节存放在可执行文件中，内码指的是在可执行文件中，字符串以什么编码进行存放。这里的字符串常量指的是窄字符(char)而不是宽字符(wchar_t)。宽字符通常都是以Unicode（VC使用UTF-16BE, gcc使用UTF-32BE）存放。
通常简体中文版的VC使用内码为GB18030，而gcc使用内码缺省为UTF-8，单可以通过-fexec-charset参数进行修改。（可以通过在程序中打印字符串中每个字节的16进制形式来判断程序使用的内码）。

3.运行环境编码
运行环境编码指的是，执行程序时，操作系统或终端所使用的编码。程序中输出的字符最终要转换为运行环境编码才能显示，否则就会出现乱码。
常用的简体中文版的windows环境编码是GB18030，linux下最常用的环境编码是UTF-8。

4.三种编码之间的关系

程序源文件【源文件编码】--->（编译器编译） ---->目标文件【程序内码】----> （运行后输出信息）---->输出【运行环境编码】

编译器需要正确识别源文件的编码，把源文件编译为目标文件，并把源文件中的以源文件编码的字符串转换为以程序内码编制的字符串保存在目标文件中。
如果源程序中的为窄字符串常量，则程序运行时，直接将目标文件中对应的内码字符串输出；若为宽字符串常量，则程序运行时c++标准库需要正确识别终端的运行环境编码，并把程序的输出转换为运行环境所使用的编码，以便正确显示。

参考文章中还有代码示例，可以直接查参考文章

本人遇到的相关问题：

在windows下，当源文件的编码为UFT-8时，对路径中有中文的文件进行输出，会直接导致对文件的输出失败，但是并不会报错，也可以正常打开文件，只是无法输出数据。

LaugustusJ

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
C++程序中的三种编码

参考文章：https://www.cnblogs.com/gtarcoder/p/4979017.html程序中的编码分类：1.程序源文件编码程序源文件编码是指保存程序源文件内容所使用的编码方案，该编码方案可在保存文件的时候自定义。通常在简体中文windows环境下，各种编辑器（包括visual studio）新建文件缺省编码都是GB18030，所以不特别指定的话，...
复制链接

扫一扫

专栏目录