多语言处理 --> UNICODE --> IBM的ICU类库

最新推荐文章于 2024-03-28 15:30:22 发布

wangyonggang

最新推荐文章于 2024-03-28 15:30:22 发布

阅读量9.4k

点赞数

文章标签：语言 ibm java c++ ruby 管理和监控

本文链接：https://blog.csdn.net/wangyonggang/article/details/927

版权

多语言处理 --> UNICODE --> IBM的ICU类库

最近写的一个C++程序里需要处理不同语言编码之间的相互转换问题，主要是GBK、BIG5、UTF-8和UTF-16这几种编码，程序虽小，但转换操作相对复杂一些。起初只想用C++本身提供的功能——包括C++标准里的wchar_t类型，C语言运行库中的locale函数集、mbstowcs和wcstombs函数，以及标准C++库中的wstring、wfstream等类——解决问题。不过，实际编起程序来，这些东西虽然能实现编码转换的功能，但总显得比较繁琐，缺少面向对象的流畅感。最讨厌的是，不同的C++编译器对这些东西的支持程度也不一样，vc相对好一些，其他的总要调上半天才能运行起来，有时还会碰上奇怪的编码错误。

现在想一想，以前在MFC中，直接用CString或TCHAR数组存储字符串，用WIN32的MultiByteToWideChar和WideCharToMultiByte函数处理编码转换的做法也比上面的方法好不到哪儿去，而且更难于移植。

所以，这会儿就特别怀念用Java语言处理类似问题的惬意了，Java本身的char类型就是UNICODE的，同时又在API中提供了面向对象的编码转换机制。所以，在Java中，下面这种转换文件编码的操作看上去就相当舒服：

InputStreamReader in = new InputStreamReader(new FileInputStream(old_name), "BIG5");
OutputStreamWriter out = new OutputStreamWriter(new FileOutputStream(new_name), "GBK");
while((i = in.read()) >= 0)
out.write(i);

更复杂的编码转换问题，在Java中解决起来也非常简单。这里面最本质的问题在哪里呢？是不是Java把自己的内核（“内核”这个词不恰当，有点儿像以前说的“内核级汉化”了）设计成UNICODE的缘故呢？换句话说，是不是Java里char类型本身就是UNICODE类型带来的好处呢？.NET平台的语言，像C#和VB.NET也是按照类似Java的模式设计的，在这些语言中处理编码转换问题似乎也很方便。C/C++是后来才引入的国际化功能，char和wchar_t也是相互分离的，是不是必然会有许多麻烦呢？

前几天在Linux上写一个Ruby脚本，用于管理和监控我自己家里的宽带连接（我对Ruby不熟，是边查Ruby手册边写程序的），发现Ruby内建的字符类型也是单字节的，如果处理UNICODE或编码转换时，还得使用其他的库，也需要来回转换，而且，用Ruby Tk编写控制界面时，在Linux上显示中文的问题就搞得我头疼不已。这是不是说，像Ruby这样的脚本语言，如果把内部的字符类型改为UNICODE的，就会对国际化功能支持得更好，就会被更多的人接受呢？或者说，以后出现的解释型脚本语言（动态语言？），都应该使用类似Java的机制呢？

回到C++上来。我发现C++本身的国际化功能有限以后，就开始寻找好用的类库。我先去查了查Boost，发现Boost里没有太多相关的东西，唯一一个对我有用的类库Date-Time还实现得非常糟糕，Boost中的Date-Time支持的年代范围非常有限，还只实现了格列高里改历后的现代历法（Gregorian System），比起Java中的GregorianCalendar类和.NET中的System.Globalization.Calendar类族，差了太多太多。

随后，我想起的是Apache的Xerces-C++，这个处理XML的类库，当然应该支持编码转换和UNICODE编程。但翻了翻文档，发现Xerces-C++毕竟只是个专用于XML处理的类库，其中虽然有一些国际化支持，但缺少的东西更多。

然后，我就在IBM的网站上发现了Mark Davis的文章Forms of UNICODE（http://www-900.ibm.com/developerWorks/cn/unicode/utfencodingforms/index_eng.shtml），这篇东西真好，不仅讲UNICODE基础知识，还让我找到了一个叫ICU的类库。这个ICU现在是International Components for Unicode的缩写，网址是

http://oss.software.ibm.com/icu/

然后我就特别高兴地发现，Java中的国际化功能最早就是由ICU那帮人实现的（我以前怎么没发现呢？）。所以，现在的ICU类库（包括C++和Java的版本）在接口上和Java API非常类似。ICU对各种编码转换的支持非常全面，还提供regular expression这样实用的功能，ICU中的GregorianCalendar类可以提供和Java中的GregorianCalendar类大致相同的功能（我在http://www.csdnblog.net/wangyonggang/archive/2004/05/17/732.aspx中说过这些东西）。

哎呀哎呀，IBM真好，ICU不错！我需要的功能都有，现在可以停止辛苦的寻找，研究研究ICU，编写我的程序了。