浅析QStringr的Unicode存储特性(二)

最新推荐文章于 2024-03-11 12:22:34 发布

插入光盘即可

最新推荐文章于 2024-03-11 12:22:34 发布

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Qt 文章标签：存储 codec string 扩展 c

本文链接：https://blog.csdn.net/lovekatherine/article/details/1865753

Qt 专栏收录该内容

1 篇文章

订阅专栏

本文探讨了当使用GBK编码的“中文”字符在QString中存储和转换时遇到的问题及解决方案。详细介绍了如何确保QString中存储的是正确的Unicode码值，并通过设置合适的编码方式避免乱码。

在上篇文章中，通过简单的实验弄清楚了QString究竟是如何以Unicode存储字符串的；

接下来考虑另一个问题，假设"中文"的编码格式不同于locale，例如使用GBK编码，在上文的示例中，还会正常输出“中文"么? 答案是否定的。

考虑一下"中文"GBK编码时的整个转换过程

首先，"中文"对应的GBK编码为“ 0xd6,0xd0,0xce,0xc4,0x00“，由于QString默认情况下认为给定的字符串采用Latin-1编码，所以GBK编码被扩展为对应的16 bit Unicode码值“0x00d6,0x00d0,0x00ce,0x00c4,0x0000"；再从QString到std::string的转换中，又由Unicode转换回Latin-1编码"0xd6,0xd0,0xce,0xe4,0x00",实际上又变回了最初的GBK编码，然而locale采用的是UTF-8编码，将GBK编码的字节流输出到编码格式为UTF-8的console，不出现乱码才见鬼呢。

那么，为什么上文中也存在相似的转换，却不会出现乱码呢？因为那里“中文"采用的就是locale编码格式，所以console能正确的识别并显示接受到的字节流。

那么，怎么正确显示GBK编码的"中文"呢？

首先，保证QString中存储的是"中文"对应的Unicode码值“0x4e2d 0x6587"，而不是“0x00d6,0x00d0,0x00ce,0x00c4,0x0000"，即完成GBK编码到Unicode的翻译。

其次，由于现在QString中的内容是"中文"的Unicode码值，而QString和std::string、const char *、QByteArray之间的转换在默认情况下是采用Latin-1编码，这样就会出现问题——0x4e2和0x6587这样的Unicode码值超出了Latin-1编码的表示范围，转换时会出现信息丢失；解决该问题的方式是显示调用 QString::setCodecForCStrings（）来设定QString和const char *之间转换时采用的编码方法。

以下是代码片段