GB2312 <=> Unicode、GB2312 <=> Big5

最新推荐文章于 2021-04-06 23:15:18 发布

superhosts

最新推荐文章于 2021-04-06 23:15:18 发布

阅读量835

点赞数

分类专栏： php

php 专栏收录该内容

32 篇文章 0 订阅

订阅专栏

编写 PHP 代码的过程中，经常会遇到需要对中文转码的问题，如 GB2312 <=> Unicode、GB2312 <=> Big5 等等。如果 PHP 编译时带有 mbstring 的话，可以使用 Multi-Byte String Function 实现部分转码工作。然而由于很多虚拟主机不支持 mbstring，或者 mbstring 的编译、配置过于麻烦，很多 PHP 代码无法使用这一序列的函数。

最近为了解决这个问题，让我心烦不已，通过搜集资料和整理，终于实现了GB2312 Big5 Unicode(UTF-8) 之间的相互转码，不敢独享，现发布出来：

<?php

/**
* 将字符串转换成unicode编码
*
* @param string $input    待转换的字符
* @param string $input_charset    字符编码
* @return string $outstr
*/
if (!function_exists('str_to_unicode')) {
    function str_to_unicode($input, $input_charset = 'gbk'){
        $input = iconv($input_charset, "gbk", $input);
        preg_match_all("/[/x80-/xff]?./", $input, $arr);

        $str = array_map('utf8_to_unicode', $arr[0]);

        $outstr = join("", $str);
        return $outstr;
    }
}
/**
* 处理转换（utf8 -> unicode）
*
* @see        name()
* @version    Thu Feb 04 10:09:24 CST 2010
* @param string $input    待转换的字符
* @param string $input_charset    字符编码
* @return    <string> 转换后的字符
*/
function utf8_to_unicode($char, $input_charset = 'gbk') {
    if ($input_charset != 'utf-8') {
        $char = iconv($input_charset, 'utf-8', $char);
    }
    switch(strlen($char)) {
        case 1:
            return $char;
        case 2:
            $n = (ord($char[0]) & 0x3f) << 6;
            $n += ord($char[1]) & 0x3f;
            break;
        case 3:
            $n = (ord($char[0]) & 0x1f) << 12;
            $n += (ord($char[1]) & 0x3f) << 6;
            $n += ord($char[2]) & 0x3f;
            break;
        case 4:
            $n = (ord($char[0]) & 0x0f) << 18;
            $n += (ord($char[1]) & 0x3f) << 12;
            $n += (ord($char[2]) & 0x3f) << 6;
            $n += ord($char[3]) & 0x3f;
            break;
    }

    return "&#$n;";
}

/**
* 将unicode编码后的字符串转换成普通编码字符
*
* @param string $str    要解码的字符
* @param string $out_charset    输出的字符编码
* @return string 解码后的字符串
*/
function str_from_unicode($str, $out_charset = 'gbk'){
    //如果不是unicode编码过的字符串，直接返回
    if (!preg_match('|&#([0-9]{1,5});|', $str)) {
        return $str;
    }

    $str = preg_replace_callback("|&#([0-9]{1,5});|", 'unicode_to_utf8', $str);

    $str = iconv("UTF-8", $out_charset, $str);
    return $str;
}

/**
* 处理解码
*
* @param <string> $char    待解码的字符
* @return <string> 解码后的字符
*/
function unicode_to_utf8($char){
    $char = $char[1];
    $str = "";
    if ($char < 0x80) {
        $str .= $char;
    } else if ($char < 0x800) {
        $str .= chr(0xC0 | $char>>6);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x10000) {
        $str .= chr(0xE0 | $char>>12);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x200000) {
        $str .= chr(0xF0 | $char>>18);
        $str .= chr(0x80 | $char>>12 & 0x3F);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    }

    return $str;
}

/**
* 另一种将unicode编码后的字符串转换成普通编码字符的方法
* 模拟JS里的unescape()
*
* @see        unescape_unicode()
* @version    Thu Feb 04 10:18:15 CST 2010
* @param     <string>    $str    待解码的字符串
* @return    <string> 解码后的字符串
*/
function unescape_unicode($str) {
    $str = rawurldecode($str);
    preg_match_all("/(?:%u.{4})|&#x.{4};|&#/d+;|.+/U",$str,$r);
    $arr = $r[0];
    #print_r($ar);
    foreach($arr as $k=>$v) {
        if(substr($v,0,2) == "%u")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
        elseif(substr($v,0,3) == "&#x")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
        elseif(substr($v,0,2) == "&#") {
            //echo substr($v,2,-1)."";
            $arr[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
        }
    }

    return join("",$arr);
}
?>