编码转化问题

最新推荐文章于 2024-04-28 13:16:41 发布

ArduousBonze

最新推荐文章于 2024-04-28 13:16:41 发布

阅读量1.3k

点赞数

文章标签： string buffer iostream winapi linux performance

C++ Builder:

使用AnsiToUtf8 Utf8ToAnsi等字符转换函数实现，具体查看帮助。

--------------------------------------------------------------------------------------------------------------------------

VC++:

相信一定有不少的程序开发人员时常会遇到字符编码的问题，而这个问题也是非常让人头痛的。因为这些都是潜在的错误，要找出这些错误也得要有这方面的开发经验才行。特别是在处理xml文档时，该问题的出现就更加的频繁了，有一次用java写服务器端程序，用vc写客户端与之交互。交互的协议都是用xml写的。结果在通讯时老是发现数据接受不正确。纳闷！于是用抓取网络数据包工具抓取数据，后来才发现原来是java上xml的头是这样的<?xml version="1.0" encoding="UTF-8"?>,而vc上默认的是GB2312。所以一遇到汉字数据就不正确了。去网上找资料，这方面的文章好象特别少，针对像这样的问题，下面我介绍一下我自己写的一个转换程序。当然，程序很简单。如果有画蛇添足的地方，还望各位高手一笑了之。
　　如果您对UTF-8、Unicode、GB2312等还是很陌生的话，请查看http://www.linuxforum.net/books/UTF-8-Unicode.html ，我这里就不浪费口舌了。下面介绍一下WinAPI的两个函数：WideCharToMultiByte、MultiByteToWideChar。

函数原型：

int WideCharToMultiByte(

	UINT CodePage, // code page

	DWORD dwFlags, // performance and mapping flags

	LPCWSTR lpWideCharStr, // wide-character string

	int cchWideChar, // number of chars in string

	LPSTR lpMultiByteStr, // buffer for new string

	int cbMultiByte, // size of buffer

	LPCSTR lpDefaultChar, // default for unmappable chars

	LPBOOL lpUsedDefaultChar // set when default char used

); //将宽字符转换成多个窄字符



int MultiByteToWideChar(

	UINT CodePage, // code page

	DWORD dwFlags, // character-type options

	LPCSTR lpMultiByteStr, // string to map

	int cbMultiByte, // number of bytes in string

	LPWSTR lpWideCharStr, // wide-character buffer

	int cchWideChar // size of buffer

);//将多个窄字符转换成宽字符

需要用到的一些函数：

CString CXmlProcess::HexToBin(CString string)//将16进制数转换成2进制

{

	if( string == "0") return "0000";

	if( string == "1") return "0001";

	if( string == "2") return "0010";

	if( string == "3") return "0011";

	if( string == "4") return "0100";

	if( string == "5") return "0101";

	if( string == "6") return "0110";

	if( string == "7") return "0111";

	if( string == "8") return "1000";

	if( string == "9") return "1001";

	if( string == "a") return "1010";

	if( string == "b") return "1011";

	if( string == "c") return "1100";

	if( string == "d") return "1101";

	if( string == "e") return "1110";

	if( string == "f") return "1111";

	return "";

}





CString CXmlProcess::BinToHex(CString BinString)//将2进制数转换成16进制

{

	if( BinString == "0000") return "0";

	if( BinString == "0001") return "1";

	if( BinString == "0010") return "2";

	if( BinString == "0011") return "3";

	if( BinString == "0100") return "4";

	if( BinString == "0101") return "5";

	if( BinString == "0110") return "6";

	if( BinString == "0111") return "7";

	if( BinString == "1000") return "8";

	if( BinString == "1001") return "9";

	if( BinString == "1010") return "a";

	if( BinString == "1011") return "b";

	if( BinString == "1100") return "c";

	if( BinString == "1101") return "d";

	if( BinString == "1110") return "e";

	if( BinString == "1111") return "f";

	return "";

}



int CXmlProcess::BinToInt(CString string)//2进制字符数据转换成10进制整型

{

	int len =0;

	int tempInt = 0;

	int strInt = 0;

	for(int i =0 ;i < string.GetLength() ;i ++)

	{

	        tempInt = 1;

	        strInt = (int)string.GetAt(i)-48;

	        for(int k =0 ;k < 7-i ; k++)

	        {

			tempInt = 2*tempInt;

	        }

	        len += tempInt*strInt;

	}

	return len;

}

　　UTF-8转换成GB2312先把UTF-8转换成Unicode.然后再把Unicode通过函数WideCharToMultiByte转换成GB2312

WCHAR* CXmlProcess::UTF_8ToUnicode(char *ustart)  //把UTF-8转换成Unicode

{

	char char_one;

	char char_two;

	char char_three;

	int Hchar;

	int Lchar;

	char uchar[2];

	WCHAR *unicode;

	CString string_one;

	CString string_two;

	CString string_three;

	CString combiString;

	char_one = *ustart;

	char_two = *(ustart+1);

	char_three = *(ustart+2);

	string_one.Format("%x",char_one);

	string_two.Format("%x",char_two);

	string_three.Format("%x",char_three);

	string_three = string_three.Right(2);

	string_two = string_two.Right(2);

	string_one = string_one.Right(2);

	string_three = HexToBin(string_three.Left(1))+HexToBin(string_three.Right(1));

	string_two = HexToBin(string_two.Left(1))+HexToBin(string_two.Right(1));

	string_one = HexToBin(string_one.Left(1))+HexToBin(string_one.Right(1));

	combiString = string_one +string_two +string_three;

	combiString = combiString.Right(20);

	combiString.Delete(4,2);

	combiString.Delete(10,2);

	Hchar = BinToInt(combiString.Left(8));

	Lchar = BinToInt(combiString.Right(8));

	uchar[1] = (char)Hchar;

	uchar[0] = (char)Lchar;

	unicode = (WCHAR *)uchar;

	return unicode;

}



char * CXmlProcess::UnicodeToGB2312(unsigned short uData)  //把Unicode 转换成 GB2312

{

	char *buffer ;

	buffer = new char[sizeof(WCHAR)];

	WideCharToMultiByte(CP_ACP,NULL,&uData,1,buffer,sizeof(WCHAR),NULL,NULL);

	return buffer;

}

　　GB2312转换成UTF-8 ：先把GB2312通过函数MultiByteToWideChar转换成Unicode.然后再把Unicode通过拆开Unicode后拼装成UTF-8 。

WCHAR * CXmlProcess::Gb2312ToUnicode(char *gbBuffer)  //GB2312 转换成　Unicode

{ 

	WCHAR *uniChar;

	uniChar = new WCHAR[1];

	::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,uniChar,1);

	return uniChar;

}

char * CXmlProcess::UnicodeToUTF_8(WCHAR *UniChar) // Unicode 转换成UTF-8

{

	char *buffer;

	CString strOne;

	CString strTwo;

	CString strThree;

	CString strFour;

	CString strAnd;

	buffer = new char[3];

	int hInt,lInt;

	hInt = (int)((*UniChar)/256);

	lInt = (*UniChar)%256;

	CString string ;

	string.Format("%x",hInt);

	strTwo = HexToBin(string.Right(1));

	string = string.Left(string.GetLength() - 1);

	strOne = HexToBin(string.Right(1));

	string.Format("%x",lInt);

	strFour = HexToBin(string.Right(1));

	string = string.Left(string.GetLength() -1);

	strThree = HexToBin(string.Right(1));

	strAnd = strOne +strTwo + strThree + strFour;

	strAnd.Insert(0,"1110");

	strAnd.Insert(8,"10");

	strAnd.Insert(16,"10");

	strOne = strAnd.Left(8);

	strAnd = strAnd.Right(16);

	strTwo = strAnd.Left(8);

	strThree = strAnd.Right(8);

	*buffer = (char)BinToInt(strOne);

	buffer[1] = (char)BinToInt(strTwo);

	buffer[2] = (char)BinToInt(strThree);

	return buffer;

}

例子：将GB2312转换成UTF-8的调用：

char * CXmlProcess::translateCharToUTF_8(char *xmlStream, int len) 

{

	int newCharLen =0 ;

	int oldCharLen = 0;

	int revCharLen = len;

	char* newCharBuffer;

	char* finalCharBuffer;

	char *buffer ;

	CString string;

	buffer  = new char[sizeof(WCHAR)];

	newCharBuffer = new char[int(1.5*revCharLen)];//设置最大的一个缓冲区

	while(oldCharLen < revCharLen)

	{

		if( *(xmlStream + oldCharLen) >= 0)

		{

			*(newCharBuffer+newCharLen) = *(xmlStream +oldCharLen);

			newCharLen ++;

			oldCharLen ++;

		}//如果是英文直接复制就可以

		else

		{

			WCHAR *pbuffer = this->Gb2312ToUnicode(xmlStream+oldCharLen);

			buffer = this->UnicodeToUTF_8(pbuffer);

			*(newCharBuffer+newCharLen) = *buffer;

			*(newCharBuffer +newCharLen +1) = *(buffer + 1);

			*(newCharBuffer +newCharLen +2) = *(buffer + 2);

			newCharLen += 3;

			oldCharLen += 2;

		}

	}

	newCharBuffer[newCharLen] = ''/0'';

	CString string1 ;

	string1.Format("%s",newCharBuffer);

	finalCharBuffer = new char[newCharLen+1];

	memcpy(finalCharBuffer,newCharBuffer,newCharLen+1);

	return finalCharBuffer;

----------------------------------------------------------------------------------------------------------------------

Linux下：

一、利用iconv函数族进行编码转换

　　在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。
　　iconv函数族的头文件是iconv.h，使用前需包含之。
　　#include <iconv.h>
　　iconv函数族有三个函数,原型如下：
　　(1) iconv_t iconv_open(const char *tocode, const char *fromcode)；
　　此函数说明将要进行哪两种编码的转换，tocode是目标编码，fromcode是原编码，该函数返回一个转换句柄，供以下两个函数使用。
　　(2) size_t iconv(iconv_t cd，char **inbuf，size_t *inbytesleft，char **outbuf，size_t *outbytesleft)；
　　此函数从inbuf中读取字符，转换后输出到outbuf中，inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。 (3) int iconv_close(iconv_t cd)；
　　此函数用于关闭转换句柄,释放资源。
　　例子1：用C语言实现的转换示例程序
　　/* f.c ：代码转换示例C程序 */
　　#include <iconv.h>
　　#define OUTLEN 255
　　main()
　　{
　　char *in_utf8 = "姝ｅ?ㄥ??瑁?"；
　　char *in_gb2312 = "正在安装"；
　　char out[OUTLEN]；
　　//unicode码转为gb2312码
　　rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN)；
　　printf("unicode-->gb2312 out=%sn",out)；
　　//gb2312码转为unicode码
　　rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN)；
　　printf("gb2312-->unicode out=%sn",out)；
　　}
　　//代码转换:从一种编码转为另一种编码
　　int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen)
　　{
　　iconv_t cd;
　　int rc;
　　char **pin = &inbuf;
　　char **pout = &outbuf;
　　cd = iconv_open(to_charset,from_charset);
　　if (cd==0) return -1;
　　memset(outbuf,0,outlen);
　　if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1;
　　iconv_close(cd);
　　return 0;
　　}
　　//UNICODE码转为GB2312码
　　int u2g(char *inbuf,int inlen,char *outbuf,int outlen)
　　{
　　return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen);
　　}
　　//GB2312码转为UNICODE码
　　int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen)
　　{
　　return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen);
　　}
　　例子2: 用C++语言实现的转换示例程序
　　/* f.cpp : 代码转换示例C++程序 */
　　#include <iconv.h>
　　#include <iostream>
　　#define OUTLEN 255
　　using namespace std;
　　// 代码转换操作类
　　class CodeConverter {
　　private:
　　iconv_t cd;
　　public:
　　// 构造
　　CodeConverter(const char *from_charset,const char *to_charset) {
　　cd = iconv_open(to_charset,from_charset);
　　}
　　// 析构
　　~CodeConverter() {
　　iconv_close(cd);
　　}
　　// 转换输出
　　int convert(char *inbuf,int inlen,char *outbuf,int outlen) {
　　char **pin = &inbuf;
　　char **pout = &outbuf;
　　memset(outbuf,0,outlen);
　　return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);
　　}
　　};
　　int main(int argc, char **argv)
　　{
　　char *in_utf8 = "姝ｅ?ㄥ??瑁?";
　　char *in_gb2312 = "正在安装";
　　char out[OUTLEN];
　　// utf-8-->gb2312
　　CodeConverter cc = CodeConverter("utf-8","gb2312");
　　cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN);
　　cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl;
　　// gb2312-->utf-8
　　CodeConverter cc2 = CodeConverter("gb2312","utf-8");
　　cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN);
　　cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl;
　　}
　　二、利用iconv命令进行编码转换
　　在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。
　　iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。
　　用法： iconv [选项...] [文件...]
　　有如下选项可用：
　　输入/输出格式规范：
　　-f, --from-code=名称原始文本编码
　　-t, --to-code=名称输出编码
　　信息：
　　-l, --list 列举所有已知的字符集
　　输出控制：
　　-c 从输出中忽略无效的字符
　　-o, --output=FILE 输出文件
　　-s, --silent 关闭警告
　　--verbose 打印进度信息
　　-?, --help 给出该系统求助列表
　　--usage 给出简要的用法信息
　　-V, --version 打印程序版本号
　　例子：
　　iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt
　　这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。
　　小结: LINUX为我们提供了强大的编码转换工具,给我们带来了方便。

　　程序都非常的简单，由于实在太穷。已经吃了两天的方便面。所以现在头昏，程序的详细说明就不写了。程序员到了像我这样的地步也真是少见。工资低没有办法。哎！！！！

ArduousBonze

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编码转化问题

C++ Builder:使用AnsiToUtf8 Utf8ToAnsi等字符转换函数实现，具体查看帮助。-------------------------------------------------------------------------------------------------------------------------- VC++:相信一定有不少的程序
复制链接

扫一扫