使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题

Linux操作系统中的iconv命令/函数可以将一种已知的字符集文件转换成另一种已知的字符集文件。
在使用它进行GBK到BIG5的编码转换时,遇到"iconv:illeagal input sequence at positon xx ”的错误。

有个一个文本文件gbk.txt,只有四个汉字,内容如下:

喜欢德芙

使用下面的命令,在shell中进行转换 

iconv -f gbk -t big5 gbk.txt -o big5.txt

失败报错

iconv:illeagal input sequence at positon 2 

根据错误提示,是由于“欢”字导致转换失败的。

GBK编码为BBB6,对应的繁体“歡”,GBK编码为9A67BIG5编码为C577

iconv在进行编码转换时输入GBK编码为BBB6的“欢”,其在BIG5中没有对应的编码,会导致转换失败。

如果是对GBK编码为9A67的“歡”进行到BIG5的转换,则会成功转换为C577

创建gbk_1.txt,内容如下

喜歡德芙

执行

iconv -f gbk -t big5 gbk_1.txt -o big5.txt

可以成功的通过iconv完成到big5的编码转换。

对于GB2312,它是GBK的子集,“欢”字在GB2312中的编码与GBK中相同都为BBB6。因为GB2312中不包含“歡”字,所以将“欢”字的源编码指定为GB2312,可以成功转换为BIG5编码。执行

iconv -f gb2312 -t big5 gbk.txt -o big5.txt 

繁简转换则是一个更为复杂的问题,包括GB2312到BIG5的转换、GBK内部简繁之间的转换,还存在一个简体字对应多个繁体字情况,例如

干字对应三个汉字:()涉,()燥,()

后字对应两个汉字:()面,皇()

 

结论:

1、  GB2312中的字符可以转换到BIG5

2、  GBK中同时存在简繁体的汉字,简体字向BIG5转换不会成功;

3、  GBKBIG5的编码转换不等价于简繁转换,GBK中也有繁体字;

4、  简->繁困难,繁->简容易;

 

中文编码转换的可行性

GBK->Unicode,Big5-Unicode (总是OK)
Unicode->GBK (当里面仅包含英文及简体时OK)
Unicode->BIG5 (当里面仅包含英文及繁体时OK)
GBK->Big5 (基本上不行,除非某些字没有特别的简体字)
GBK->Big5是汉字的简繁转换
GB2312->BIG5(多数OK)

另附GBK繁简转换码表

下载地址:

 http://download.csdn.net/detail/littlefang/8460263

参考

http://zhidao.baidu.com/question/162366537.html 中tobyliu415的回答

《一个简化字对应两个或多个繁体字的情况》http://wenku.baidu.com/link?url=vhQELM2h2-x_1yDoyf8hB1Rf6O638anAy5x07IpE783FHNUTen8HyqG7DIhMcH4sh7i5kDvouOC-Xo4oBnqkW6nlkBIWPMfNst7bjqOPeWG

BIG5内码表 http://www.me.tnu.edu.tw/~me006/vb/tutor/r05/index.htm

《GBK,BIG5等字符集编码范围的具体说明》 http://www.cnblogs.com/chenwenbiao/archive/2011/09/16/2178372.html

《iconv遇到无法转码的字符时中断内容丢失及解决方法》http://www.zoneself.org/2012/02/21/content_653.html

 


 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Linux下,可以使用iconv进行Unicode编码转换。下面是一个示例代码,将Unicode字符串转换成字节数组、将字节数组转换成Unicode字符串: ```c++ #include <iconv.h> #include <string.h> #include <stdio.h> int main() { // 将Unicode字符串转换成字节数组 const char *unicode_str = u8"\u4F60\u597D"; size_t unicode_len = strlen(unicode_str); size_t buf_len = unicode_len * 4; // 一个Unicode字符最多占4个字节 char *buf = new char[buf_len]; memset(buf, 0, buf_len); iconv_t cd = iconv_open("UTF-8", "UCS-2LE"); char *in_buf = (char*)unicode_str; char *out_buf = buf; size_t in_len = unicode_len; size_t out_len = buf_len; int ret = iconv(cd, &in_buf, &in_len, &out_buf, &out_len); if (ret == -1) { perror("iconv"); return -1; } printf("字节数组: "); for (size_t i = 0; i < buf_len - out_len; ++i) { printf("%02X ", (unsigned char)buf[i]); } printf("\n"); // 将字节数组转换成Unicode字符串 char *byte_str = buf; size_t byte_len = buf_len - out_len; size_t unicode_buf_len = byte_len / 2 + 1; // 一个Unicode字符占2个字节 char *unicode_buf = new char[unicode_buf_len]; memset(unicode_buf, 0, unicode_buf_len); cd = iconv_open("UCS-2LE", "UTF-8"); in_buf = byte_str; out_buf = unicode_buf; in_len = byte_len; out_len = unicode_buf_len; ret = iconv(cd, &in_buf, &in_len, &out_buf, &out_len); if (ret == -1) { perror("iconv"); return -1; } printf("Unicode字符串: %s\n", unicode_buf); delete[] buf; delete[] unicode_buf; return 0; } ``` 需要注意的是,iconv库只能处理单个Unicode字符,如果要处理Unicode字符串,则需要将其拆分成单个Unicode字符进行转换。上面的示例代码中,使用了UCS-2LE编码,可以根据需要修改为其他编码

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值