首先来理解两个编码集:
1.Unicode(统一码、万国码、单一码、标准万国码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简化地方式来呈现和处理文字。
2.GBK即汉字内码扩展规范,K为汉语拼音 Kuo Zhan(扩展)中“扩”字的声母。英文全称Chinese Internal Code Specification。当然GBK是支持英文的。
简单来说unicode是一个万国码,支持几乎所有编码向其的转换。GBK是中文编码集。unicode支持所有的编码的转入与转出,这种转换之间需要一定的规则,暂时称为映射表,当GBK向unicode转换时,需要GBK->unicode的映射表,如果映射表出错,那转换就会失败出现乱码现象。
QT中经常出现的乱码地方是1.界面中文乱码、2.文件读取/写入乱码。引起乱码的原因这个映射表搞错了。QT中的字符串为unicode编码,当然,QT的UI中也是unicode编码。如果想解决乱码问题,只需在main函数中加入以下三行代码:
int main(int argc, char **argv)
{
QApplication app(argc, argv);
QTextCodec::setCodecForCStrings(QTextCodec::codecForName("GBK"));
QTextCodec::setCodecForTr(QTextCodec::codecForName("GBK"));
QTextCodec::setCodecForLocal(QTextCodec::codecForName("GBK")):
//.................
return app.exec
}
只要有以上三行代码,程序中基本上不会出现乱码了。但是这三句话是什么意思呢?
1. QTextCodec::setCodecForCStrings(QTextCodec::codecForName("GBK"));
这句话代表告诉QT我给你的字符串都是GBK编码的,这样QT的字符就自动会按照GBK->unicode的映射表进行转换,另外你当你输出字符时QT按照unicode->GBK的映射表转换,这样程序中出现字符串的地方就不会有乱码了。
如果没有这句话,程序中的字符就要做如下处理(以界面为例):
QTextEdit *pEdit = new QTextEdit();
QString str = "中文";
QTextCodec *pCodec = QTextCodec::codecForName("GBK");
//从GBK转换为Unicode
str = pCodec->toUnicode(str);
pEdit->setText(str);
str = pEdit->text();
//从Unicode转换为GBK
str = pCodec->fromUnicode(str);
2.QTextCodec::setCodecFrTr(QtextCodec::codecForName("GBK"));
这句话代表告诉QT我调用QObject::tr()函数时都是GBK编码,你需要按照对应的映射表进行转换。
3. QTextCodec::setCodecForLocal(QTextCodec::codecForName("GBK")):
这句话代表告诉QT我本地的文件都是GBK编码,你读取文件时需要按照对应的映射表进行转换。那下面代码就会出现乱码:
//test.txt的第一行内容为”我是中文"
QFile xFile("test.txt");
QTextStream stream(xFile);
QString str = stream.readLine();
qDebug(str);
因为QT不知道文件中是什么编码,所以就默认为unicode,所以读出来的东西就是乱码,下面代码就不会有乱码:
//test.txt的第一行内容为”我是中文"
QFile xFile("test.txt");
QTextStream stream(xFile);
QTextCodec *pCodec = QTextCodec::codecForName("GBK");
stream.setCodec(pCodec);
QString str = stream.readLine();
qDebug(str);