多语言处理 --> UNICODE --> IBM的ICU类库
最近写的一个C++程序里需要处理不同语言编码之间的相互转换问题,主要是GBK、BIG5、UTF-8和UTF-16这几种编码,程序虽小,但转换操作相对复杂一些。起初只想用C++本身提供的功能——包括C++标准里的wchar_t类型,C语言运行库中的locale函数集、mbstowcs和wcstombs函数,以及标准C++库中的wstring、wfstream等类——解决问题。不过,实际编起程序来,这些东西虽然能实现编码转换的功能,但总显得比较繁琐,缺少面向对象的流畅感。最讨厌的是,不同的C++编译器对这些东西的支持程度也不一样,vc相对好一些,其他的总要调上半天才能运行起来,有时还会碰上奇怪的编码错误。
现在想一想,以前在MFC中,直接用CString或TCHAR数组存储字符串,用WIN32的MultiByteToWideChar和WideCharToMultiByte函数处理编码转换的做法也比上面的方法好不到哪儿去,而且更难于移植。
所以,这会儿就特别怀念用Java语言处理类似问题的惬意了,Java本身的char类型就是UNICODE的,同时又在API中提供了面向对象的编码转换机制。所以,在Java中,下面这种转换文件编码的操作看上去就相当舒服:
InputStreamReader in = new InputStreamReader(new FileInputStream(old_name), "BIG5");
OutputStreamWriter out = new OutputStreamWriter(ne