客户端开发不可避免会遇到中文,这个时候会出现乱码的问题,所以编码集之间转换就很重要了。
一、编码概念
- ASCII
ASCII 每个字符占据1bytes,用二进制表示的话最高位必须为0(扩展的ASCII不在考虑范围内),因此ASCII只能表示128个字 - GB2312
GB2312 最早一版的中文编码,每个字占据2bytes。由于要和ASCII兼容,那这2bytes最高位不可以为0了(否则和ASCII会有冲突)。在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字
3.GBK
GBK即兼容GB2312和ASCII,也用每个字占据2bytes的方式又编码了许多汉字,可以表示的汉字达到了20902个,另有984个汉语标点符号、部首等 - GB18030
GBK的两万多字无法覆盖所有汉字,还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了(2bytes最多只有65536种组合,然而为了和ASCII兼容,最高位不能为0就已经直接淘汰了一半的组合,只剩下3万多种组合无法满足全部汉字要求)。因此GB18030多出来的汉字使用4bytes编码 - Unicode
每一种语言的不同的编码页,增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准,叫做unicode。unicode为每个字符提供了唯一的特定数值,不论在什么平台上、不论在什么软件中,也不论什么语言。也就是说,它世界上使用的所有字符都列出来,并给每一个字符一个唯一特定数值。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32.通常说的Unicode就是指UTF-16。 - UTF-8
UTF-8是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。(注:BOM在Unicode编码中主要用来识别大端或者小端字节序的)
二、编码转换
1、utf8转gbk
QByteArray utf2gbk(const QString &strGBK)
{
//codecForName函数为静态函数,不保证线程安全,加锁可以解决
static QMutex s_mutexCodec;
s_mutexCodec.lock();
QTextCodec *gbk = QTextCodec::codecForName("GB18030");
QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");
QByteArray byRet = gbk->fromUnicode(utf8->toUnicode(strGBK.toUtf8()));
s_mutexCodec.unlock();
return byRet;
}
2、gbk 转utf8
QByteArray RztCommonUtils::gbk2utf(const char* szGBK)
{
QTextCodec *gbk = QTextCodec::codecForName("GB18030");
QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");
return utf8->fromUnicode(gbk->toUnicode(QByteArray(szGBK)));
}