c++ 字符集

【问题来源: 使用qt查找html文件中的»(\u00BB)符号时总是失败。 代码示例 find("»",context) 其中context为QString类型,由文件输入得到。】


一般来说,c++从源代码到执行的过程中涉及到以下3个字符集:1.源代码的字符集  2.可执行文件的字符集  3.界面使用的字符集(特别体现在console中)。

源代码字符集,即源字符集,为源文件的编码方式,可在开发平台中自行选择。

可执行文件的字符集,即可执行字符集,为源代码中的字符集,中文windows默认为GB2312,可通过QTextCodec::setCodecForLocale、#pragma execution_character_set等方式修改。

界面使用的字符集决定了怎么解释可执行文件中代表字符串的二进制文件。

      源文件----(编译)---→可执行文件----(运行)---→    显示

"字“                                   ”字“                             ”字“

 ↓utf8                                 ↓gb2312 ↓utf8

E5 AD 97 D7 D6                                      D7 D6   

编译器读取源代码文件,根据对应的编码方式(源字符集)理解二进制文件,并将源代码中的字符常量转换为可执行字符集中对应的字符常量。如源文件(utf-8)格式中有字符串常量“字”(编码E5 AD 97),编译器读到源文件中的E5 AD 97,按utf-8将其理解为"字",随后将其转换成可执行字符集中"字"对应的可执行字符集中的编码(如若可执行字符集为GB2312,则D7 D6)。 简而言之,编译器保证了字符串从源字符集到可执行字符集的语意保持不变。


有了这个模型之后就可以解决一些问题了:

最开始的问题中,匹配失败的原因是可执行字符集默认为GB2312,而该字符集中没有»这一字符。因此需要将可执行字符集改为其他如utf-8。同时由于console默认的也是gb2312编码,所以输出显示“??”。


网上最常见的问题是qt中的中文乱码。即如QString s("字")在输出s时乱码。这是因为"啊"在编译时(可执行字符集为gb2312)对应了GB2312编码二进制数据,qt无法直接将其转换为unicode字符集(qstring为unicode字符集)。

可以使用QTextCodec *codec = QTextCodec::codecForLocale()获取可执行字符集,然后用codec->toUnicode("字")完成从当前可执行字符集到unicode的转换



可执行字符集:当前代码页,断电调试时看到的变量




参考:http://www.cnblogs.com/zyl910/archive/2012/07/26/cfile_utf8.html

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值