编码转化问题

C++ Builder:

使用AnsiToUtf8 Utf8ToAnsi等字符转换函数实现,具体查看帮助。

--------------------------------------------------------------------------------------------------------------------------

 

VC++:

相信一定有不少的程序开发人员时常会遇到字符编码的问题,而这个问题也是非常让人头痛的。因为这些都是潜在的错误,要找出这些错误也得要有这方面的开发经 验才行。特别是在处理xml文档时 ,该问题的出现就更加的频繁了,有一次用java写服务器端程序,用vc写客户端与之交互。交互的协议都是用xml写的。结果在通讯时老是发现数据接受不 正确。纳闷!于是用抓取网络数据包工具抓取数据,后来才发现原来是java上xml的头是这样的<?xml version="1.0" encoding="UTF-8"?>,而vc上默认的是GB2312。所以一遇到汉字数据就不正确了。去网上找资料,这方面的文章好象特别少,针 对像这样的问题,下面我介绍一下我自己写的一个转换程序。当然,程序很简单。如果有画蛇添足的地方,还望各位高手一笑了之。
  如果您对UTF-8、Unicode、GB2312等还是很陌生的话,请查看http://www.linuxforum.net/books/UTF-8-Unicode.html ,我这里就不浪费口舌了。下面介绍一下WinAPI的两个函数:WideCharToMultiByte、MultiByteToWideChar。

函数原型:

int WideCharToMultiByte(
UINT CodePage, // code page
DWORD dwFlags, // performance and mapping flags
LPCWSTR lpWideCharStr, // wide-character string
int cchWideChar, // number of chars in string
LPSTR lpMultiByteStr, // buffer for new string
int cbMultiByte, // size of buffer
LPCSTR lpDefaultChar, // default for unmappable chars
LPBOOL lpUsedDefaultChar // set when default char used
); //将宽字符转换成多个窄字符

int MultiByteToWideChar(
UINT CodePage, // code page
DWORD dwFlags, // character-type options
LPCSTR lpMultiByteStr, // string to map
int cbMultiByte, // number of bytes in string
LPWSTR lpWideCharStr, // wide-character buffer
int cchWideChar // size of buffer
);//将多个窄字符转换成宽字符

需要用到的一些函数:

CString CXmlProcess::HexToBin(CString string)//将16进制数转换成2进制
{
if( string == "0") return "0000";
if( string == "1") return "0001";
if( string == "2") return "0010";
if( string == "3") return "0011";
if( string == "4") return "0100";
if( string == "5") return "0101";
if( string == "6") return "0110";
if( string == "7") return "0111";
if( string == "8") return "1000";
if( string == "9") return "1001";
if( string == "a") return "1010";
if( string == "b") return "1011";
if( string == "c") return "1100";
if( string == "d") return "1101";
if( string == "e") return "1110";
if( string == "f") return "1111";
return "";
}


CString CXmlProcess::BinToHex(CString BinString)//将2进制数转换成16进制
{
if( BinString == "0000") return "0";
if( BinString == "0001") return "1";
if( BinString == "0010") return "2";
if( BinString == "0011") return "3";
if( BinString == "0100") return "4";
if( BinString == "0101") return "5";
if( BinString == "0110") return "6";
if( BinString == "0111") return "7";
if( BinString == "1000") return "8";
if( BinString == "1001") return "9";
if( BinString == "1010") return "a";
if( BinString == "1011") return "b";
if( BinString == "1100") return "c";
if( BinString == "1101") return "d";
if( BinString == "1110") return "e";
if( BinString == "1111") return "f";
return "";
}

int CXmlProcess::BinToInt(CString string)//2进制字符数据转换成10进制整型
{
int len =0;
int tempInt = 0;
int strInt = 0;
for(int i =0 ;i < string.GetLength() ;i ++)
{
tempInt = 1;
strInt = (int)string.GetAt(i)-48;
for(int k =0 ;k < 7-i ; k++)
{
tempInt = 2*tempInt;
}
len += tempInt*strInt;
}
return len;
}

  UTF-8转换成GB2312先把UTF-8转换成Unicode.然后再把Unicode通过函数WideCharToMultiByte转换成GB2312

WCHAR* CXmlProcess::UTF_8ToUnicode(char *ustart)  //把UTF-8转换成Unicode
{
char char_one;
char char_two;
char char_three;
int Hchar;
int Lchar;
char uchar[2];
WCHAR *unicode;
CString string_one;
CString string_two;
CString string_three;
CString combiString;
char_one = *ustart;
char_two = *(ustart+1);
char_three = *(ustart+2);
string_one.Format("%x",char_one);
string_two.Format("%x",char_two);
string_three.Format("%x",char_three);
string_three = string_three.Right(2);
string_two = string_two.Right(2);
string_one = string_one.Right(2);
string_three = HexToBin(string_three.Left(1))+HexToBin(string_three.Right(1));
string_two = HexToBin(string_two.Left(1))+HexToBin(string_two.Right(1));
string_one = HexToBin(string_one.Left(1))+HexToBin(string_one.Right(1));
combiString = string_one +string_two +string_three;
combiString = combiString.Right(20);
combiString.Delete(4,2);
combiString.Delete(10,2);
Hchar = BinToInt(combiString.Left(8));
Lchar = BinToInt(combiString.Right(8));
uchar[1] = (char)Hchar;
uchar[0] = (char)Lchar;
unicode = (WCHAR *)uchar;
return unicode;
}

char * CXmlProcess::UnicodeToGB2312(unsigned short uData) //把Unicode 转换成 GB2312
{
char *buffer ;
buffer = new char[sizeof(WCHAR)];
WideCharToMultiByte(CP_ACP,NULL,&uData,1,buffer,sizeof(WCHAR),NULL,NULL);
return buffer;
}

  GB2312转换成UTF-8先把GB2312通过函数MultiByteToWideChar转换成Unicode.然后再把Unicode通过拆开Unicode后拼装成UTF-8

WCHAR * CXmlProcess::Gb2312ToUnicode(char *gbBuffer)  //GB2312 转换成 Unicode
{
WCHAR *uniChar;
uniChar = new WCHAR[1];
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,uniChar,1);
return uniChar;
}
char * CXmlProcess::UnicodeToUTF_8(WCHAR *UniChar) // Unicode 转换成UTF-8
{
char *buffer;
CString strOne;
CString strTwo;
CString strThree;
CString strFour;
CString strAnd;
buffer = new char[3];
int hInt,lInt;
hInt = (int)((*UniChar)/256);
lInt = (*UniChar)%256;
CString string ;
string.Format("%x",hInt);
strTwo = HexToBin(string.Right(1));
string = string.Left(string.GetLength() - 1);
strOne = HexToBin(string.Right(1));
string.Format("%x",lInt);
strFour = HexToBin(string.Right(1));
string = string.Left(string.GetLength() -1);
strThree = HexToBin(string.Right(1));
strAnd = strOne +strTwo + strThree + strFour;
strAnd.Insert(0,"1110");
strAnd.Insert(8,"10");
strAnd.Insert(16,"10");
strOne = strAnd.Left(8);
strAnd = strAnd.Right(16);
strTwo = strAnd.Left(8);
strThree = strAnd.Right(8);
*buffer = (char)BinToInt(strOne);
buffer[1] = (char)BinToInt(strTwo);
buffer[2] = (char)BinToInt(strThree);
return buffer;
}

例子:将GB2312转换成UTF-8的调用:

char * CXmlProcess::translateCharToUTF_8(char *xmlStream, int len) 
{
int newCharLen =0 ;
int oldCharLen = 0;
int revCharLen = len;
char* newCharBuffer;
char* finalCharBuffer;
char *buffer ;
CString string;
buffer = new char[sizeof(WCHAR)];
newCharBuffer = new char[int(1.5*revCharLen)];//设置最大的一个缓冲区
while(oldCharLen < revCharLen)
{
if( *(xmlStream + oldCharLen) >= 0)
{
*(newCharBuffer+newCharLen) = *(xmlStream +oldCharLen);
newCharLen ++;
oldCharLen ++;
}//如果是英文直接复制就可以
else
{
WCHAR *pbuffer = this->Gb2312ToUnicode(xmlStream+oldCharLen);
buffer = this->UnicodeToUTF_8(pbuffer);
*(newCharBuffer+newCharLen) = *buffer;
*(newCharBuffer +newCharLen +1) = *(buffer + 1);
*(newCharBuffer +newCharLen +2) = *(buffer + 2);
newCharLen += 3;
oldCharLen += 2;
}
}
newCharBuffer[newCharLen] = ''/0'';
CString string1 ;
string1.Format("%s",newCharBuffer);
finalCharBuffer = new char[newCharLen+1];
memcpy(finalCharBuffer,newCharBuffer,newCharLen+1);
return finalCharBuffer;
----------------------------------------------------------------------------------------------------------------------
Linux下:
一、利用iconv函数族进行编码转换

  在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。
  iconv函数族的头文件是iconv.h,使用前需包含之。
  #include <iconv.h>
  iconv函数族有三个函数,原型如下:
  (1) iconv_t iconv_open(const char *tocode, const char *fromcode);
  此函数说明将要进行哪两种编码的转换,tocode是目标编码,fromcode是原编码,该函数返回一个转换句柄,供以下两个函数使用。
  (2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);
  此函数从inbuf中读取字符,转换后输出到outbuf中,inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。 (3) int iconv_close(iconv_t cd);
  此函数用于关闭转换句柄,释放资源。
  例子1: 用C语言实现的转换示例程序
  /* f.c :代码转换示例C程序 */
  #include <iconv.h>
  #define OUTLEN 255
  main()
  {
  char *in_utf8 = "姝e?ㄥ??瑁?";
  char *in_gb2312 = "正在安装";
  char out[OUTLEN];
  //unicode码转为gb2312码
  rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN);
  printf("unicode-->gb2312 out=%sn",out);
  //gb2312码转为unicode码
  rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN);
  printf("gb2312-->unicode out=%sn",out);
  }
  //代码转换:从一种编码转为另一种编码
  int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen)
  {
  iconv_t cd;
  int rc;
  char **pin = &inbuf;
  char **pout = &outbuf;
  cd = iconv_open(to_charset,from_charset);
  if (cd==0) return -1;
  memset(outbuf,0,outlen);
  if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1;
  iconv_close(cd);
  return 0;
  }
  //UNICODE码转为GB2312码
  int u2g(char *inbuf,int inlen,char *outbuf,int outlen)
  {
  return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen);
  }
  //GB2312码转为UNICODE码
  int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen)
  {
  return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen);
  }
  例子2: 用C++语言实现的转换示例程序
  /* f.cpp : 代码转换示例C++程序 */
  #include <iconv.h>
  #include <iostream>
  #define OUTLEN 255
  using namespace std;
  // 代码转换操作类
  class CodeConverter {
  private:
  iconv_t cd;
  public:
  // 构造
  CodeConverter(const char *from_charset,const char *to_charset) {
  cd = iconv_open(to_charset,from_charset);
  }
  // 析构
  ~CodeConverter() {
  iconv_close(cd);
  }
  // 转换输出
  int convert(char *inbuf,int inlen,char *outbuf,int outlen) {
  char **pin = &inbuf;
  char **pout = &outbuf;
  memset(outbuf,0,outlen);
  return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);
  }
  };
  int main(int argc, char **argv)
  {
  char *in_utf8 = "姝e?ㄥ??瑁?";
  char *in_gb2312 = "正在安装";
  char out[OUTLEN];
  // utf-8-->gb2312
  CodeConverter cc = CodeConverter("utf-8","gb2312");
  cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN);
  cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl;
  // gb2312-->utf-8
  CodeConverter cc2 = CodeConverter("gb2312","utf-8");
  cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN);
  cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl;
  }
  二、利用iconv命令进行编码转换
  在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。
  iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。
  用法: iconv [选项...] [文件...]
  有如下选项可用:
  输入/输出格式规范:
  -f, --from-code=名称 原始文本编码
  -t, --to-code=名称 输出编码
  信息:
  -l, --list 列举所有已知的字符集
  输出控制:
  -c 从输出中忽略无效的字符
  -o, --output=FILE 输出文件
  -s, --silent 关闭警告
  --verbose 打印进度信息
  -?, --help 给出该系统求助列表
  --usage 给出简要的用法信息
  -V, --version 打印程序版本号
  例子:
  iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt
  这个命令读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。
  小结: LINUX为我们提供了强大的编码转换工具,给我们带来了方便。


}

  程序都非常的简单,由于实在太穷。已经吃了两天的方便面。所以现在头昏,程序的详细说明就不写了。程序员到了像我这样的地步也真是少见。工资低没有办法。哎!!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值