关闭

GB2312 <=> Unicode、GB2312 <=> Big5

515人阅读 评论(0) 收藏 举报
分类:

编写 PHP 代码的过程中,经常会遇到需要对中文转码的问题,如 GB2312 <=> Unicode、GB2312 <=> Big5 等等。如果 PHP 编译时带有 mbstring 的话,可以使用 Multi-Byte String Function 实现部分转码工作。然而由于很多虚拟主机不支持 mbstring,或者 mbstring 的编译、配置过于麻烦,很多 PHP 代码无法使用这一序列的函数。

最近为了解决这个问题,让我心烦不已,通过搜集资料和整理,终于实现了GB2312 Big5 Unicode(UTF-8) 之间的相互转码,不敢独享,现发布出来:

<?php

/**
* 将字符串转换成unicode编码
*
* @param string $input    待转换的字符
* @param string $input_charset    字符编码
* @return string $outstr
*/
if (!function_exists('str_to_unicode')) {
    function str_to_unicode($input, $input_charset = 'gbk'){
        $input = iconv($input_charset, "gbk", $input);
        preg_match_all("/[/x80-/xff]?./", $input, $arr);
       
        $str = array_map('utf8_to_unicode', $arr[0]);
       
        $outstr = join("", $str);
        return $outstr;
    }
}
/**
 * 处理转换(utf8 -> unicode)
 *
 * @see        name()
 * @version    Thu Feb 04 10:09:24 CST 2010
 * @param string $input    待转换的字符
 * @param string $input_charset    字符编码
 * @return    <string> 转换后的字符
*/
function utf8_to_unicode($char, $input_charset = 'gbk') {
    if ($input_charset != 'utf-8') {
        $char = iconv($input_charset, 'utf-8', $char);
    }
    switch(strlen($char)) {
        case 1:
            return $char;
        case 2:
            $n = (ord($char[0]) & 0x3f) << 6;
            $n += ord($char[1]) & 0x3f;
            break;
        case 3:
            $n = (ord($char[0]) & 0x1f) << 12;
            $n += (ord($char[1]) & 0x3f) << 6;
            $n += ord($char[2]) & 0x3f;
            break;
        case 4:
            $n = (ord($char[0]) & 0x0f) << 18;
            $n += (ord($char[1]) & 0x3f) << 12;
            $n += (ord($char[2]) & 0x3f) << 6;
            $n += ord($char[3]) & 0x3f;
            break;
    }

    return "&#$n;";
}

/**
* 将unicode编码后的字符串转换成普通编码字符
*
* @param string $str    要解码的字符
* @param string $out_charset    输出的字符编码
* @return string 解码后的字符串
*/
function str_from_unicode($str, $out_charset = 'gbk'){
    //如果不是unicode编码过的字符串,直接返回
    if (!preg_match('|&#([0-9]{1,5});|', $str)) {
        return $str;
    }
   
    $str = preg_replace_callback("|&#([0-9]{1,5});|", 'unicode_to_utf8', $str);

    $str = iconv("UTF-8", $out_charset, $str);
    return $str;
}

/**
 * 处理解码
 *
 * @param <string> $char    待解码的字符
 * @return <string> 解码后的字符
 */
function unicode_to_utf8($char){
    $char = $char[1];
    $str = "";
    if ($char < 0x80) {
        $str .= $char;
    } else if ($char < 0x800) {
        $str .= chr(0xC0 | $char>>6);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x10000) {
        $str .= chr(0xE0 | $char>>12);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x200000) {
        $str .= chr(0xF0 | $char>>18);
        $str .= chr(0x80 | $char>>12 & 0x3F);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    }
   
    return $str;
}

/**
 * 另一种将unicode编码后的字符串转换成普通编码字符的方法
 * 模拟JS里的unescape()
 *
 * @see        unescape_unicode()
 * @version    Thu Feb 04 10:18:15 CST 2010
 * @param     <string>    $str    待解码的字符串
 * @return    <string> 解码后的字符串
*/
function unescape_unicode($str) {
    $str = rawurldecode($str);
    preg_match_all("/(?:%u.{4})|&#x.{4};|&#/d+;|.+/U",$str,$r);
    $arr = $r[0];
    #print_r($ar);
    foreach($arr as $k=>$v) {
        if(substr($v,0,2) == "%u")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
        elseif(substr($v,0,3) == "&#x")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
        elseif(substr($v,0,2) == "&#") {
            //echo substr($v,2,-1)."";
            $arr[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
        }
    }
   
    return join("",$arr);
}
?>

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:301124次
    • 积分:3520
    • 等级:
    • 排名:第9725名
    • 原创:61篇
    • 转载:73篇
    • 译文:0篇
    • 评论:16条
    文章分类
    最新评论