使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题

最新推荐文章于 2023-09-10 19:52:24 发布

镇关西

最新推荐文章于 2023-09-10 19:52:24 发布

阅读量6.7k

点赞数

分类专栏：疑难问题文章标签：编码 gbk big5 转换 iconv

本文链接：https://blog.csdn.net/littlefang/article/details/43964773

版权

疑难问题专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Linux操作系统中的iconv命令/函数可以将一种已知的字符集文件转换成另一种已知的字符集文件。
在使用它进行GBK到BIG5的编码转换时，遇到"iconv:illeagal input sequence at positon xx ”的错误。

有个一个文本文件gbk.txt，只有四个汉字，内容如下：

喜欢德芙

使用下面的命令，在shell中进行转换

iconv -f gbk -t big5 gbk.txt -o big5.txt

失败报错

iconv:illeagal input sequence at positon 2

根据错误提示，是由于“欢”字导致转换失败的。

其GBK编码为BBB6，对应的繁体“歡”，GBK编码为9A67，BIG5编码为C577。

iconv在进行编码转换时输入GBK编码为BBB6的“欢”，其在BIG5中没有对应的编码，会导致转换失败。

如果是对GBK编码为9A67的“歡”进行到BIG5的转换，则会成功转换为C577。

创建gbk_1.txt，内容如下

喜歡德芙

执行

iconv -f gbk -t big5 gbk_1.txt -o big5.txt

可以成功的通过iconv完成到big5的编码转换。

对于GB2312，它是GBK的子集，“欢”字在GB2312中的编码与GBK中相同都为BBB6。因为GB2312中不包含“歡”字，所以将“欢”字的源编码指定为GB2312，可以成功转换为BIG5编码。执行

iconv -f gb2312 -t big5 gbk.txt -o big5.txt

繁简转换则是一个更为复杂的问题，包括GB2312到BIG5的转换、GBK内部简繁之间的转换，还存在一个简体字对应多个繁体字情况，例如

干字对应三个汉字：(干)涉，(乾)燥，(幹)部

后字对应两个汉字：(後)面，皇(后)

结论：

1、 GB2312中的字符可以转换到BIG5；

2、 GBK中同时存在简繁体的汉字，简体字向BIG5转换不会成功；

3、 GBK到BIG5的编码转换不等价于简繁转换，GBK中也有繁体字；

4、简->繁困难，繁->简容易；

中文编码转换的可行性

GBK->Unicode,Big5-Unicode （总是OK）
Unicode->GBK (当里面仅包含英文及简体时OK)
Unicode->BIG5 (当里面仅包含英文及繁体时OK)
GBK->Big5 (基本上不行，除非某些字没有特别的简体字)
GBK->Big5是汉字的简繁转换
GB2312->BIG5（多数OK）

另附GBK繁简转换码表

下载地址：

http://download.csdn.net/detail/littlefang/8460263

参考

http://zhidao.baidu.com/question/162366537.html 中tobyliu415的回答

《一个简化字对应两个或多个繁体字的情况》http://wenku.baidu.com/link?url=vhQELM2h2-x_1yDoyf8hB1Rf6O638anAy5x07IpE783FHNUTen8HyqG7DIhMcH4sh7i5kDvouOC-Xo4oBnqkW6nlkBIWPMfNst7bjqOPeWG

BIG5内码表 http://www.me.tnu.edu.tw/~me006/vb/tutor/r05/index.htm

《GBK,BIG5等字符集编码范围的具体说明》 http://www.cnblogs.com/chenwenbiao/archive/2011/09/16/2178372.html

《iconv遇到无法转码的字符时中断内容丢失及解决方法》http://www.zoneself.org/2012/02/21/content_653.html