【问题来源: 使用qt查找html文件中的»(\u00BB)符号时总是失败。 代码示例 find("»",context) 其中context为QString类型,由文件输入得到。】
一般来说,c++从源代码到执行的过程中涉及到以下3个字符集:1.源代码的字符集 2.可执行文件的字符集 3.界面使用的字符集(特别体现在console中)。
源代码字符集,即源字符集,为源文件的编码方式,可在开发平台中自行选择。
可执行文件的字符集,即可执行字符集,为源代码中的字符集,中文windows默认为GB2312,可通过QTextCodec::setCodecForLocale、#pragma execution_character_set等方式修改。
界面使用的字符集决定了怎么解释可执行文件中代表字符串的二进制文件。
源文件----(编译)---→可执行文件----(运行)---→ 显示
"字“ ”字“ ”字“
↓utf8 ↓gb2312 ↓utf8
E5 AD 97 D7 D6 D7 D6
编译器读取源代码文件,根据对应的编码方式(源字符集)理解二进制文件,并将源代码中的字符常量转换为可执行字符集中对应的字符常量。如源文件(utf-8)格式中有字符串常量“字”(编码E5 AD 97),编译器读到源文件中的E5 AD 97,按utf-8将其理解为"字",随后将其转换成可执行字符集中"字"对应的可执行字符集中的编码(如若可执行字符集为GB2312,则D7 D6)。 简而言之,编译器保证了字符串从源字符集到可执行字符集的语意保持不变。
有了这个模型之后就可以解决一些问题了:
最开始的问题中,匹配失败的原因是可执行字符集默认为GB2312,而该字符集中没有»这一字符。因此需要将可执行字符集改为其他如utf-8。同时由于console默认的也是gb2312编码,所以输出显示“??”。
网上最常见的问题是qt中的中文乱码。即如QString s("字")在输出s时乱码。这是因为"啊"在编译时(可执行字符集为gb2312)对应了GB2312编码二进制数据,qt无法直接将其转换为unicode字符集(qstring为unicode字符集)。
可以使用QTextCodec *codec = QTextCodec::codecForLocale()获取可执行字符集,然后用codec->toUnicode("字")完成从当前可执行字符集到unicode的转换
可执行字符集:当前代码页,断电调试时看到的变量
参考:http://www.cnblogs.com/zyl910/archive/2012/07/26/cfile_utf8.html