疯狂的wchar_t
PS: 我还是改个标题,不改怕被高手们骂死。
去年的这个时候当我决定把所有渲染和支持代码都向d3d10转移的时候,就准备搞定以后多语言的问题,于是义无反顾的选择了unicode。unicode处理中文字符串时候方便多了----至少在windows下是如此。
基于这个出发点,我的xml解析器直接处理的就是unicode,而不是常见的utf-8。一切都很美好,知道我离开windows。上个礼拜,我需要把程序移植到linux下。在编译完程序后,xml加载器首先就罢工了。gdb跟踪进去发现,竟然我取到的一个字符是负数,当时差点没晕倒。想了好长时间没想明白。楞了一个下午才反应过来sizeof(wchar_t) != 2 .....。除了xml文件,我的文件打包器的name成员是wchar_t。意味着我在windows下打包的文件时候在linux下一定会出问题。
考察了很久,猛然发现gcc有个option叫-fshort_wchar。 激动之,赶快加一个,make clean && make。---结果还是挂! 又让我郁闷了好久,继续gdb。发现wcslen(str)竟然短一半----原来glibc里的wchar_t还是4个字节。看来要使用-fshort_wchar还必须要编译glibc。
没办法,只能判断wchar_t长短来处理了。目前我的做法是准备做一个template,根据sizeof(wchar_t)来选择使用哪个字符串,保存在文件里的字串通通按照ucs-2来处理。并在加载时候来进行ucs-2/ucs-4转换。不敢轻易下决策了。等想一阵再说。看来unicode也不省心啊,家家都有本难念的经。
注:ucs分ucs2和ucs4,就是16bit和32bit的。utf8和utf16/utf32则是编码方式。utf8的anscii码基本和ansi一样。可以使用libiconv来进行各种编码方式之间转化。 编译器里的unicode通常是ucs-2-internal和ucs-4-internal。
发表于 @ 2008年04月10日 23:30:00|评论(loading...)|编辑