有关国际化
应用程序国际化的实质是提供一种机制,使其能根据环境变量或配置文件,来指导程序的行为。当对新的“国家”进行支持时,不用修改代码,只修改资源文件就可以实现。
例如,“把LANG设为C,再用vi打开带中文的文件,中文显示乱码”。就是因为vi根据LANG做了某些操作。
在Linux下,和国际化相关的locale环境变量有三类:LC_ALL,LC_*(如LC_CTYPE等),LANG。
根据man 7 locale里的定义,这三者的优先级为LC_ALL>LC_*>LANG,即LC_ALL定义的内容会覆盖LC_*和LANG的,LC_*会覆盖LANG的。
locale变量的格式为(参照网上的资料):
语言[_地域][.字符集] [@修正值]
例如:
1、我说中文,身处中华人民共和国,使用国标2312字符集来表达字符。zh_CN.GB2312=中文_中华人民共和国+国标2312字符集。
2、我说中文,身处中华人民共和国,使用国标18030字符集来表达字符。zh_CN.GB18030=中文_中华人民共和国+国标18030字符集。
3、我说中文,身处中华人民共和国台湾省,使用国标Big5字符集来表达字符。zh_TW.BIG5=中文_台湾.大五码字符集 。
4、我说英文,身处大不列颠,使用ISO-8859-1字符集来表达字符。 en_GB.ISO-8859-1=英文_大不列颠.ISO-8859-1字符集 。
5、我说德语,身处德国,使用UTF-8字符集,习惯了欧洲风格。de_DE.UTF-8@euro=德语_德国.UTF-8字符集@按照欧洲习惯加以修正。
可以使用命令locale来查看用户当前的locale配置:
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
应用程序也可以定义自己的环境变量或配置文件,来处理国际化问题。例如oracle的NLS_LANGUAGE。
C++中的国际化
C++使用locale类来处理国际化问题。
例如
1) 使用德文格式输出数字:
//de_num.cpp
#include <iostream>
#include <locale>
using namespace std;
int main()
{
int a =1234567;
cout<< a << endl;
localel("de_DE.UTF-8");
cout.imbue(l);
cout<< a << endl;
return 0;
}
结果:
1234567
1.234.567
即德文格式用.来作为每三个数字的间隔。
2)得到用户环境变量的信息:
//get_user_locale.cpp
#include <iostream>
#include <locale>
using namespace std;
int main()
{
//createthe default locale from the user's environment
localel("");
cout<< l.name() << endl;
return 0;
}
结果
en_US.UTF-8
3)cout.imbue(locale(""));和不设imbue是不一样的
cout.imbue(locale(""));//按照用户的环境变量来创建locale并设置cout
不设相当于cout.imbue(locale("C"));
locale的详细使用方法可以参照《The C++Standard Library》第14章。
char和wchar_t
char是C++中的多字节表示。linux下的char是UTF-8格式的,是变长的。
wchar_t是C++中的宽字节表示。linux下的wchar_t是UTF-32格式的,是定长的,占4字节。
多字节一般用在程序的外部储存数据,可以节省空间。宽字节一般用在程序的内部储存数据(内存中),便于程序处理。
在linux下似乎不鼓励使用wchar_t,有莫名其妙的问题。
例如如下代码:
//wcout.cpp
#include <iostream>
#include <locale>
#include <cstdlib>
using namespace std;
int main()
{
locale::global(locale("zh_CN.UTF-8")); //OK
//wcout.imbue(locale("zh_CN.UTF-8")); //Not OK
constwchar_t * b = L"中文";
wcout<< b << endl;
return 0;
}
按照书上的要求设置wcout.imbue,却不能正确输出。但是设置locale::global却可以。原因未知。