GB2312 <=> Unicode、GB2312 <=> Big5

转载 2013年12月03日 13:30:38

编写 PHP 代码的过程中,经常会遇到需要对中文转码的问题,如 GB2312 <=> Unicode、GB2312 <=> Big5 等等。如果 PHP 编译时带有 mbstring 的话,可以使用 Multi-Byte String Function 实现部分转码工作。然而由于很多虚拟主机不支持 mbstring,或者 mbstring 的编译、配置过于麻烦,很多 PHP 代码无法使用这一序列的函数。

最近为了解决这个问题,让我心烦不已,通过搜集资料和整理,终于实现了GB2312 Big5 Unicode(UTF-8) 之间的相互转码,不敢独享,现发布出来:

<?php

/**
* 将字符串转换成unicode编码
*
* @param string $input    待转换的字符
* @param string $input_charset    字符编码
* @return string $outstr
*/
if (!function_exists('str_to_unicode')) {
    function str_to_unicode($input, $input_charset = 'gbk'){
        $input = iconv($input_charset, "gbk", $input);
        preg_match_all("/[/x80-/xff]?./", $input, $arr);
       
        $str = array_map('utf8_to_unicode', $arr[0]);
       
        $outstr = join("", $str);
        return $outstr;
    }
}
/**
 * 处理转换(utf8 -> unicode)
 *
 * @see        name()
 * @version    Thu Feb 04 10:09:24 CST 2010
 * @param string $input    待转换的字符
 * @param string $input_charset    字符编码
 * @return    <string> 转换后的字符
*/
function utf8_to_unicode($char, $input_charset = 'gbk') {
    if ($input_charset != 'utf-8') {
        $char = iconv($input_charset, 'utf-8', $char);
    }
    switch(strlen($char)) {
        case 1:
            return $char;
        case 2:
            $n = (ord($char[0]) & 0x3f) << 6;
            $n += ord($char[1]) & 0x3f;
            break;
        case 3:
            $n = (ord($char[0]) & 0x1f) << 12;
            $n += (ord($char[1]) & 0x3f) << 6;
            $n += ord($char[2]) & 0x3f;
            break;
        case 4:
            $n = (ord($char[0]) & 0x0f) << 18;
            $n += (ord($char[1]) & 0x3f) << 12;
            $n += (ord($char[2]) & 0x3f) << 6;
            $n += ord($char[3]) & 0x3f;
            break;
    }

    return "&#$n;";
}

/**
* 将unicode编码后的字符串转换成普通编码字符
*
* @param string $str    要解码的字符
* @param string $out_charset    输出的字符编码
* @return string 解码后的字符串
*/
function str_from_unicode($str, $out_charset = 'gbk'){
    //如果不是unicode编码过的字符串,直接返回
    if (!preg_match('|&#([0-9]{1,5});|', $str)) {
        return $str;
    }
   
    $str = preg_replace_callback("|&#([0-9]{1,5});|", 'unicode_to_utf8', $str);

    $str = iconv("UTF-8", $out_charset, $str);
    return $str;
}

/**
 * 处理解码
 *
 * @param <string> $char    待解码的字符
 * @return <string> 解码后的字符
 */
function unicode_to_utf8($char){
    $char = $char[1];
    $str = "";
    if ($char < 0x80) {
        $str .= $char;
    } else if ($char < 0x800) {
        $str .= chr(0xC0 | $char>>6);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x10000) {
        $str .= chr(0xE0 | $char>>12);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x200000) {
        $str .= chr(0xF0 | $char>>18);
        $str .= chr(0x80 | $char>>12 & 0x3F);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    }
   
    return $str;
}

/**
 * 另一种将unicode编码后的字符串转换成普通编码字符的方法
 * 模拟JS里的unescape()
 *
 * @see        unescape_unicode()
 * @version    Thu Feb 04 10:18:15 CST 2010
 * @param     <string>    $str    待解码的字符串
 * @return    <string> 解码后的字符串
*/
function unescape_unicode($str) {
    $str = rawurldecode($str);
    preg_match_all("/(?:%u.{4})|&#x.{4};|&#/d+;|.+/U",$str,$r);
    $arr = $r[0];
    #print_r($ar);
    foreach($arr as $k=>$v) {
        if(substr($v,0,2) == "%u")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
        elseif(substr($v,0,3) == "&#x")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
        elseif(substr($v,0,2) == "&#") {
            //echo substr($v,2,-1)."";
            $arr[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
        }
    }
   
    return join("",$arr);
}
?>

相关文章推荐

汉字的字符集-big5 gb2312 unicode

  • 2009年02月06日 16:21
  • 740KB
  • 下载

gbk, gb2312,big5,unicode,utf-8,utf-16的区别详细介绍

标题 谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词 选择自 fmddlmyy 的 Blog 关键字 谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词 这是一...

编码介绍--gbk, gb2312,big5,unicode,utf-8,utf-16之间的关系

转http://www.cppblog.com/qiujian5628/archive/2008/01/24/41773.html

vc中GB2312,BIG5,Unicode编码转换

本文主要讨论的是VC编译环境下,实现字符串和文件编码方式转换的实现,linux下请使用Strconv. 一、文件编码格式转换 //GB2312 编码文件转换成 Unicode:        ...

gbk, gb2312,big5,unicode,utf-8,utf-16的区别

本文转自http://blog.chinaunix.net/uid-446337-id-94462.html详细说明了各种编码的区别于联系,对于支持国际化很重要,否则各种乱码能搞死人! Un...
  • Kontrol
  • Kontrol
  • 2012年07月20日 15:52
  • 1850

详解ASCII GB2312(BIG5) GBK GB18030 Unicode UTF-8 编码历史与定义

前言:我们都知道,人类能识别自己的语言(汉字,字母,标点符号),但是计算机只能识别二进制代码。我们要与计算机交互,只               要把自己的语言字符按照人类定义的规则转换成二进制代码。...

ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别

最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些朋友提供的 ascii,ISO-8859-1,unicode, utf8,gb2312,big5,gbk,gb18030等几种常区...

gbk, gb2312,big5,unicode,utf-8,utf-16的区别 gbk, gb23

Unicode编码,UCS、UTF、BMP、BOM等名词 这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的...

彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, UTF8.(GBK, GB18030, BIG5, UTF-7,UTF-16,UTF-32) .

电子计算机技术是从美国开始发展起来的,因为美国使用的文字为英文,美国规定的计算机信息交换用的字符编码集是人们熟知的扩展的ASCII码,它以8bit字节为单位存储,ASCII的0-31及127为控制符,...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:GB2312 <=> Unicode、GB2312 <=> Big5
举报原因:
原因补充:

(最多只允许输入30个字)