libiconv 支持的编码

最新推荐文章于 2024-06-25 09:43:23 发布

weixin_34289744

最新推荐文章于 2024-06-25 09:43:23 发布

阅读量442

点赞数

文章标签： php

原文链接：http://www.cnblogs.com/yisuo/p/6784060.html

版权

libiconv 支持的编码

php 中的 iconv() 函数常用来作编码转换用。作一些不同编码的动态数据的转换时常遇到一些未知编码的数据，这时 iconv() 支持那些编码转换就很重要。

刚开始，是分析 header 或者是网页的 charset ，从而提取编码方法，但是这种方法是有缺陷的，一些网页中是没有 charset 的，而是由浏览器自动分析而来，有时候判断不准，那就是乱码

使用iconv函数将含有繁体的 GB2312 到 UTF-8 转换时导致内容不完整，就是无法转换的时候就从此处断开，同时报 Notice ，解决这个问题需要使用它的两个可选的辅助参数：TRANSLIT和IGNORE ，其中//IGNORE 是遇到无法转换的就跳过，继续下文; //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符。
然后这两个参数并不是万能的，繁体和简体的混合字符在转的时候仍然无法显示繁体，这是由于 GB2312 编码的字符集没有含繁体字造成的，如果有一种编码包括了繁体和简体字符集，那么在转换的时候就没有错误，这就用到了 GBK 或者是 GB18030，三者的关系是 GB18030 > GBK > GB2312，也就是说在用iconv函数将含有繁简体的 GB2312 到 UTF-8 转换时标记为 GBk 的 GBK 到 UTF-8 转换效果更好一点。

对iconv函数而言，就是按上面的方法有时候问题仍不能解决，这是由于iconv函数本身的缺陷造成的，PHP还有一个扩展：MBSTRING ，也是用来编码转化的，在编码转换上效果似乎更优，而且能自动判断数据编码，但是用 MBSTRING 自动判断含有繁体的 GB2312 字符集时，它不会认为这是GBK集而是ASCII，而ASCII仅仅可能就是美式键盘的字符集合而已，怎么能和 GBK 相提并论呢，当用 MBSTRING 判断出错，自然用MBSTRING 转换就出问题

所以，不管是用 iconv 或者是 MBSTRING，首先取得网页中数据编码，这里用到了 iconv 、MBSTRING 支持的编码集，知道这个之后就能判断未知数据的编码，从而准确的进行编码转换，再也不怕乱码了。

libiconv 官方网站上的编码支持明细 http://www.gnu.org/software/libiconv/

下面的这个函数能取得数据的编码方式

<?php
header("Content-type: text/html; charset=UTF-8");
$str = file_get_contents('gbk.html');
$coding = chkcode($str); //判断文件gbk.html的编码
$str = iconv($coding,"UTF-8//IGNORE//TRANSLIT",$str); //转为UTF-8编码
echo $str;

function chkcode($str){
    $code = array(
        'GBK',
        'EUC-CN',
        'BIG5',
        'EUC-TW',
        'HZ',
        'CP950',
        'BIG5-HKSCS',
        'UTF-8',
        'ASCII',
        'ISO-8859-1',
        'ISO-8859-6',
        'ISO-8859-8',
        'GB2312',
        'CP936',
        'BIG5-HKSCS:2001',
        'BIG5-HKSCS:1999',
        'ISO-2022-CN',
        'ISO-2022-CN-EXT',
        'SJIS',
        'JIS',
        'EUC-JP',
        'SHIFT_JIS',
        'eucJP-win',
        'SJIS-win',
        'ISO-2022-JP',
        'CP932',
        'ISO-2022-JP',
        'ISO-2022-JP-2',
        'ISO-2022-JP-1',
        'EUC-KR',
        'CP949',
        'ISO-2022-KR',
        'JOHAB',
        'UTF-7'
);

foreach($code as $charset){
if($str==iconv('UTF-8',"$charset//IGNORE//TRANSLIT",iconv($charset,'UTF-8// IGNORE//TRANSLIT',$str))){
        return $charset;
        break;
        }
    }
return 'UTF-8';
}
?>

转载于:https://www.cnblogs.com/yisuo/p/6784060.html