linux查看当前文化大小,Linux 的中文化问题简介(4)

最新推荐文章于 2022-03-12 11:17:18 发布

机智的大群主

最新推荐文章于 2022-03-12 11:17:18 发布

阅读量230

点赞数

文章标签： linux查看当前文化大小

Linux 的中文化问题简介(4)

2008-02-23 07:19:52来源：互联网阅读 ()

setlocale(LC_MESSAGES, "");

.....

我个人的建议是，在 setlocale() 时只要设我们程式中需要的项目即可，而不要设 LC_ALL, 原因是在某些 locale 下 (如我们的 zh_TW.Big5), 并非所有的项目都能正确运作。我想对大部分的程式而言，设好 LC_CTYPE 与 LC_MESSAGES 就差不多了，故以下我针对这两个做说明。

wcs. vs. mbs. (详见 man mbstowcs 与相关 man page)

"wcs" 是 "wide-chararater string" 的缩写，而 "mbs" 是 "multi-byte string" 的缩写，二者分别代表字串的表现方式。所谓的 multi-byte 是指数个 char 组成一个字 (如全形字或中文字是由两个 char 组成)，而 wide-char 是指一个 wchar_t type 就是一个字, 而 sizeof(wchar_t) 的大小与系统有关，一般而言是 4 bytes。一般我们可以直接看、输出输入等都是 multi-byte, 如:

char *str = "这是一个句子: abcd";

但我们会建议在程式内部，用 mbstowcs() 将它转成 wchar_t 来统一处理，这个转换其实是根据 locale 中的 LC_CTYPE 的机制，它定义了 multi-byte 与 wide- char 值二者间的对应关。做这样转换的好处是，您不用担心全形、半形的问题，因为一个 wchar_t 矩阵元就是一个字。

wchar_t 有一组与 string.h 中相对应的字串处理函式 (目前在 Linux 中可能还没有 man page 说明)，就定义在 wchar.h 中，让我们可以如同处理 (char *) 那样地处理 (wchar_t *), 其部分的对应关如下，其他的可以直接看 wchar.h 的内容:

wcscpy() <====> strcpy()

wcsncpy() <====> strncpy()

wcslen() <====> strlen()

wcsdup() <====> strdup()

wcscmp() <====> strcmp()

wcsncmp() <====> strncmp()

........................................

由於 mbs 码与 wcs 码的对应关是由该 locale 的 LC_CTYPE 来决定的，也就是不同的 locale 写法其对应关可能会不一样。就我们的 glibc2, zh_TW.Big5 locale 而言，由 mbs 转成的 wcs 即为 unicode (有关 unicode 的资讯可以在 http://www.unicode.org/ 中找到)，但不能保在其他的系统或环境下也是如此。故最保险的做法，是将字串储存成 multi-byte, 然後在 run-time 时才用 mbstowcs() 转成 wide-char 来运作。

讯息输出 (详见 info gettext):

一般我们程式的讯息输出，是经由 stdio.h 头的函式，直接输出到 stdout 或 stderr, 而输出的内容是直接写死在程式码中。这样的程式要做多国语文化会造成困扰，因为我们必须要修改原始码，将所有的讯息字串翻译成另一种语文。因此，我们必须透过 locale 的 LC_MESSAGES 来处理讯息输出。其原理很简单，就是将程式中的所有讯息抽离出来，为每一个 locale 分别做好一个讯息档，当程式要输出讯息时，则透过 libc 的函式依目前的 locale 去正确的讯息档中抓取讯息。

在此我用 GNU gettext 为例，简单说明其原理。在 /usr/share/locale 中，头有各种 locale 的资料目录。而每个目录下，都会有一个 LC_MESSAGES 的目录，而这些目录就是用来放各别程式的讯息档。例如:

/usr/share/locale/ja/LC_MESSAGES/prog.mo (日文)

/usr/share/locale/zh_TW.Big5/LC_MESSAGES/prog.mo (Big5)

其中在 ja/ 目录下的 prog.mo 就是 prog 这个程式的日文讯息，而 zh_TW.Big5/ 下的 prog.mo 就是 prog 这个程式的中文讯息。假设在还没加入 LC_MESSAGES 支援之前， prog.c 长得像这样:

--------------------------------------------------------------------------------

#include

main()

{

printf("This is a test string.\n");

}

--------------------------------------------------------------------------------

现在我们要用 gettext 来加入支援，则程式只要改成: