GBase 8s中应用的文本文件字符集转换方法
字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集(简体中文)、BIG5字符集(繁体中文)、 GB18030字符集(亚洲字符集合)、Unicode( 常用 UTF-8) 字符集等。
在GBase 8s数据库中如果需要支持中文,则会指定字符集,不同编码的字符集并不兼容,如果字符集不同,可能造成显示乱码。这在向GBase 8s加载中文文本时尤其重要。
那么就需要了解在字符集之间转换文本文件的方法。
假如需要从UTF-8转换到ISO-8859-15,输入文件为in.txt,希望转换后的文件为out.txt
在Linux/UNIX/OSX/cygwin上:
$ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt
使用了linux的iconv在线转换器。关于iconv工具的具体使用,可参见https://blog.csdn.net/liaosnet/article/details/106842700这篇技术文章。
很多用户习惯使用Windows系统,同样也可以在Windows系统下完成字符集转换,在Windows上使用Powershell工具进行转换,例如:
D:\Users\Administrator> powershell
PS D:> gc -en utf8 in.txt | Out-File -en ascii out.txt
(但不支持ISO-8859-15;它支持的字符集有Unicode、utf 7、UTF 8、utf 32、ascii、bigendian unicode、Default和OEM。)