qt客户端技术杂谈-字符编码转换(06)

客户端开发不可避免会遇到中文,这个时候会出现乱码的问题,所以编码集之间转换就很重要了。

一、编码概念

  1. ASCII
    ASCII 每个字符占据1bytes,用二进制表示的话最高位必须为0(扩展的ASCII不在考虑范围内),因此ASCII只能表示128个字
  2. GB2312
    GB2312 最早一版的中文编码,每个字占据2bytes。由于要和ASCII兼容,那这2bytes最高位不可以为0了(否则和ASCII会有冲突)。在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字
    3.GBK
    GBK即兼容GB2312和ASCII,也用每个字占据2bytes的方式又编码了许多汉字,可以表示的汉字达到了20902个,另有984个汉语标点符号、部首等
  3. GB18030
    GBK的两万多字无法覆盖所有汉字,还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了(2bytes最多只有65536种组合,然而为了和ASCII兼容,最高位不能为0就已经直接淘汰了一半的组合,只剩下3万多种组合无法满足全部汉字要求)。因此GB18030多出来的汉字使用4bytes编码
  4. Unicode
    每一种语言的不同的编码页,增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准,叫做unicode。unicode为每个字符提供了唯一的特定数值,不论在什么平台上、不论在什么软件中,也不论什么语言。也就是说,它世界上使用的所有字符都列出来,并给每一个字符一个唯一特定数值。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32.通常说的Unicode就是指UTF-16。
  5. UTF-8
    UTF-8是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。(注:BOM在Unicode编码中主要用来识别大端或者小端字节序的)

二、编码转换
1、utf8转gbk

QByteArray utf2gbk(const QString &strGBK)
{
//codecForName函数为静态函数,不保证线程安全,加锁可以解决
    static QMutex s_mutexCodec;
    s_mutexCodec.lock();
    QTextCodec *gbk = QTextCodec::codecForName("GB18030");
    QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");
    QByteArray byRet = gbk->fromUnicode(utf8->toUnicode(strGBK.toUtf8()));
    s_mutexCodec.unlock();

    return byRet;
}

2、gbk 转utf8

QByteArray RztCommonUtils::gbk2utf(const char* szGBK)
{
    QTextCodec *gbk = QTextCodec::codecForName("GB18030");
    QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");
    return utf8->fromUnicode(gbk->toUnicode(QByteArray(szGBK)));
}
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值