Linux下编码转换（iconv函数族）

最新推荐文章于 2023-05-29 18:13:06 发布

Feisy

最新推荐文章于 2023-05-29 18:13:06 发布

阅读量741

点赞数

分类专栏： C++ C

C++ 同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

转自：http://www.linuxdiyf.com/viewarticle.php?id=45164

在Linux上进行编码转换时，既可以利用iconv函数族编程实现，也可以利用iconv命令来实现（针对文件进行转换）

一、利用iconv函数族进行编码转换

iconv函数族的头文件是iconv.h

使用前需包含之：#include <iconv.h>

iconv函数族有三个函数，原型如下：

(1) iconv_open()

函数原型：

iconv_t iconv_open(const char *tocode, const char *fromcode);

函数功能：

该函数分配一个编码转换句柄

参数：

1> tocode是目标编码

2> fromcode是原编码

（具体可以使用的编码方案可以百度查找）

支持的内码包括：Unicode相关编码，如UTF-8、UTF-16等等；各国采用的ANSI编码，其中包括GB2312、BIG5等中文编码方式。

返回值：

调用成功，则该函数返回一个转换句柄，供以下两个函数使用；

调用失败，返回-1，并且设置errno

可能的错误类型：

EINVAL The conversion from fromcode to tocode is not supported by the implementation.

(2) iconv()

函数功能：进行实际的编码转换

函数原型：

size_t iconv(iconv_t cd,
char **inbuf, size_t *inbytesleft,
char **outbuf, size_t *outbytesleft);

参数介绍：

1> cd是方法iconv_open()调用返回的转码句柄；

2> inbuf指向需要转码的缓冲区；

3> inbytesleft是inbuf所保存的需要转码的字节数；

4> outbuf存放转码结果；

5> outbytesleft存放outbuf空间的大小。

（不足之处：由于没有办法获取转换之后需要的内存大小，所以会造成内存空间的浪费！）

返回值：

调用成功，返回转换的字节数（不可逆转调用的字节数，可逆转调用的字节数不包括在内）

调用失败，返回-1，并设置相应的errno。

注意：

iconv()是逐步扫描inbuf，每转换一个字符，就增加inbuf，减少inbytesleft，并将结果存入outbuf，结果字节数存入outbytesleft

常见的三种情况：

情况一： inbuf不为空，而且*inbuf也不为空

此时，进行正常的编码转换

遇到下列情况将停止扫描并返回：

（1）inbuf中碰到非法的多字节序

这种状况下，会设置errno为EILSEQ，并返回-1；

（2）inbuf字节被完全转换

这种状况下，返回转换的字节数

（3）inbuf中碰到不完整的多字节序

这种状况下，设置errno为EINVAL，并返回-1；

（4）outbuf中没有足够的空间以进行下一次的字符转换

这种状况下，设置errno为E2BIG，并返回-1；

情况二：inbuf == NULL，或者*inbuf == NULL；但outbuf != NULL，且*outbuf != NULL

iconv会设置转换状态为初始状态，并保存转换序列到*outbuf。如果outbuf空间不足，errno会设置为E2BIG，返回(size_t) (-1)；

情况三：INBUF == NULL，或者*inbuf == NULL；并且outbuf == NULL，*out == NULL

iconv设置转换状态为初始状态

(3) iconv_close()

函数原型：

int iconv_close(iconv_t cd);

函数功能：

此函数用于关闭转换句柄，释放资源。

示例代码：

封装一个转换类型：

[cpp]view plaincopy 
   
 class CCodeConverter  
 {  
  public:  
     CCodeConverter(const char * fromCode, const char * toCode)  
     {  
         hCodeConverter=iconv_open(toCode, fromCode);  
     }  
   
   
     ~CCodeConverter()  
     {  
         iconv_close(hCodeConverter);  
     }  
   
   
     //进行转换  
     int convert(char * srcBuf, int srcLen, char * destBuf, int destLen)  
     {  
         //返回转换的字符个数  
         int nConv=iconv(hCodeConverter, &srcBuf, (size_t *)&srcLen, &destBuf, (size_t *)&destLen);  
   
   
         //如果错误，则获取错误码  
         nErr=errno;  
   
   
         return nConv;  
     }  
   
   
     //获取错误信息  
     int getErrInfo()  
     {  
         switch(nErr)  
             {  
             case E2BIG:  
                 {  
                     printf("errno:E2BGI（OutBuf空间不够）\n");  
                     break;  
                 }  
             case EILSEQ:  
                 {  
                     printf("errno:EILSEQ（InBuf多字节序无效）\n");  
                     break;  
                 }  
             case EINVAL:  
                 {  
                     printf("errno:EINVAL（有残留的字节未转换）\n");  
                     break;  
                 }  
             default:  
                 break;  
             }  
   
   
         return nErr;  
     }  
   
   
  private:  
     //转换句柄  
     iconv_t hCodeConverter;  
     int nErr;  
 };  

以utf-8转为utf-16为例

[cpp]view plaincopy 
   
 int main()  
 {  
     int srcLen=12;  
     char * srcBuf=new char[srcLen];  
     memset(srcBuf, 0, srcLen);  
   
   
     strcpy(srcBuf, "BaiSe");  
   
   
     int destLen=2*srcLen;  
     char * destBuf=new char[destLen];  
     memset(destBuf, 0, destLen);  
   
   
     CCodeConverter cv=CCodeConverter("utf-8", "utf-16");  
     int nRet=cv.convert(srcBuf, srcLen, destBuf, destLen);  
   
   
     if(nRet<0)  
     {  
         cv.getErrInfo();  
         return -1;  
     }  
   
   
     printf("转换成功\n");     
 }  

调试，查看内存，destBuf内容如下：

(gdb) print destBuf
$1 = 0x804b018 "\377\376B"
(gdb) print destBuf+1
$2 = 0x804b019 "\376B"
(gdb) print destBuf+2
$3 = 0x804b01a "B"
(gdb) print destBuf+3
$4 = 0x804b01b ""
(gdb) print destBuf+4
$5 = 0x804b01c "a"
(gdb) print destBuf+5
$6 = 0x804b01d ""
(gdb) print destBuf+6

$7 = 0x804b01e "i"

问题：不明白为什么前面有"\377\376"，是用来标识编码类型的么？

二、iconv命令

iconv命令用于转换指定文件的编码，默认输出到标准输出设备,亦可指定输出文件。

用法： iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范：

-f, --from-code=名称原始文本编码
-t, --to-code=名称输出编码信息：
-l, --list 列举所有已知的字符集输出控制：
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息
-?, --help 给出该系统求助列表
--usage 给出简要的用法信息

-V, --version 打印程序版本号

例子：

iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt

这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。

Feisy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linux下编码转换（iconv函数族）

转自：http://www.linuxdiyf.com/viewarticle.php?id=45164在Linux上进行编码转换时，既可以利用iconv函数族编程实现，也可以利用iconv命令来实现（针对文件进行转换）一、利用iconv函数族进行编码转换 iconv函数族的头文件是iconv.h使用前需包含之：#include iconv函数族有三个函数
复制链接

扫一扫