qt客户端技术杂谈-字符编码转换（06）

最新推荐文章于 2023-04-28 15:21:10 发布

darkGer

最新推荐文章于 2023-04-28 15:21:10 发布

阅读量333

点赞数

分类专栏： qt客户端技术杂谈文章标签：乱码 unicode utf8 gbk 转换

本文链接：https://blog.csdn.net/baidu_31541363/article/details/109996509

版权

qt客户端技术杂谈专栏收录该内容

5 篇文章 0 订阅

订阅专栏

客户端开发不可避免会遇到中文,这个时候会出现乱码的问题,所以编码集之间转换就很重要了。

一、编码概念

ASCII
ASCII 每个字符占据1bytes，用二进制表示的话最高位必须为0（扩展的ASCII不在考虑范围内），因此ASCII只能表示128个字
GB2312
GB2312 最早一版的中文编码，每个字占据2bytes。由于要和ASCII兼容，那这2bytes最高位不可以为0了（否则和ASCII会有冲突）。在GB2312中收录了6763个汉字以及682个特殊符号，已经囊括了生活中最常用的所有汉字
3.GBK
GBK即兼容GB2312和ASCII，也用每个字占据2bytes的方式又编码了许多汉字,可以表示的汉字达到了20902个，另有984个汉语标点符号、部首等
GB18030
GBK的两万多字无法覆盖所有汉字，还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了（2bytes最多只有65536种组合，然而为了和ASCII兼容，最高位不能为0就已经直接淘汰了一半的组合，只剩下3万多种组合无法满足全部汉字要求）。因此GB18030多出来的汉字使用4bytes编码
Unicode
每一种语言的不同的编码页，增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准，叫做unicode。unicode为每个字符提供了唯一的特定数值，不论在什么平台上、不论在什么软件中，也不论什么语言。也就是说，它世界上使用的所有字符都列出来，并给每一个字符一个唯一特定数值。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32.通常说的Unicode就是指UTF-16。
UTF-8
UTF-8是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。(注：BOM在Unicode编码中主要用来识别大端或者小端字节序的)

二、编码转换
1、utf8转gbk

QByteArray utf2gbk(const QString &strGBK)
{
//codecForName函数为静态函数，不保证线程安全，加锁可以解决
    static QMutex s_mutexCodec;
    s_mutexCodec.lock();
    QTextCodec *gbk = QTextCodec::codecForName("GB18030");
    QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");
    QByteArray byRet = gbk->fromUnicode(utf8->toUnicode(strGBK.toUtf8()));
    s_mutexCodec.unlock();

    return byRet;
}

2、gbk 转utf8

QByteArray RztCommonUtils::gbk2utf(const char* szGBK)
{
    QTextCodec *gbk = QTextCodec::codecForName("GB18030");
    QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");
    return utf8->fromUnicode(gbk->toUnicode(QByteArray(szGBK)));
}

darkGer

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
qt客户端技术杂谈-字符编码转换（06）

客户端开发不可避免会遇到中文,这个时候会出现乱码的问题,所以编码集之间转换就很重要了。一、编码概念ASCIIASCII 每个字符占据1bytes，用二进制表示的话最高位必须为0（扩展的ASCII不在考虑范围内），因此ASCII只能表示128个字GB2312GB2312 最早一版的中文编码，每个字占据2bytes。由于要和ASCII兼容，那这2bytes最高位不可以为0了（否则和ASCII会有冲突）。在GB2312中收录了6763个汉字以及682个特殊符号，已经囊括了生活中最常用的所有汉字3.
复制链接

扫一扫