GB2312 <=> Unicode、GB2312 <=> Big5

转载 2013年12月03日 13:30:38

编写 PHP 代码的过程中,经常会遇到需要对中文转码的问题,如 GB2312 <=> Unicode、GB2312 <=> Big5 等等。如果 PHP 编译时带有 mbstring 的话,可以使用 Multi-Byte String Function 实现部分转码工作。然而由于很多虚拟主机不支持 mbstring,或者 mbstring 的编译、配置过于麻烦,很多 PHP 代码无法使用这一序列的函数。

最近为了解决这个问题,让我心烦不已,通过搜集资料和整理,终于实现了GB2312 Big5 Unicode(UTF-8) 之间的相互转码,不敢独享,现发布出来:

<?php

/**
* 将字符串转换成unicode编码
*
* @param string $input    待转换的字符
* @param string $input_charset    字符编码
* @return string $outstr
*/
if (!function_exists('str_to_unicode')) {
    function str_to_unicode($input, $input_charset = 'gbk'){
        $input = iconv($input_charset, "gbk", $input);
        preg_match_all("/[/x80-/xff]?./", $input, $arr);
       
        $str = array_map('utf8_to_unicode', $arr[0]);
       
        $outstr = join("", $str);
        return $outstr;
    }
}
/**
 * 处理转换(utf8 -> unicode)
 *
 * @see        name()
 * @version    Thu Feb 04 10:09:24 CST 2010
 * @param string $input    待转换的字符
 * @param string $input_charset    字符编码
 * @return    <string> 转换后的字符
*/
function utf8_to_unicode($char, $input_charset = 'gbk') {
    if ($input_charset != 'utf-8') {
        $char = iconv($input_charset, 'utf-8', $char);
    }
    switch(strlen($char)) {
        case 1:
            return $char;
        case 2:
            $n = (ord($char[0]) & 0x3f) << 6;
            $n += ord($char[1]) & 0x3f;
            break;
        case 3:
            $n = (ord($char[0]) & 0x1f) << 12;
            $n += (ord($char[1]) & 0x3f) << 6;
            $n += ord($char[2]) & 0x3f;
            break;
        case 4:
            $n = (ord($char[0]) & 0x0f) << 18;
            $n += (ord($char[1]) & 0x3f) << 12;
            $n += (ord($char[2]) & 0x3f) << 6;
            $n += ord($char[3]) & 0x3f;
            break;
    }

    return "&#$n;";
}

/**
* 将unicode编码后的字符串转换成普通编码字符
*
* @param string $str    要解码的字符
* @param string $out_charset    输出的字符编码
* @return string 解码后的字符串
*/
function str_from_unicode($str, $out_charset = 'gbk'){
    //如果不是unicode编码过的字符串,直接返回
    if (!preg_match('|&#([0-9]{1,5});|', $str)) {
        return $str;
    }
   
    $str = preg_replace_callback("|&#([0-9]{1,5});|", 'unicode_to_utf8', $str);

    $str = iconv("UTF-8", $out_charset, $str);
    return $str;
}

/**
 * 处理解码
 *
 * @param <string> $char    待解码的字符
 * @return <string> 解码后的字符
 */
function unicode_to_utf8($char){
    $char = $char[1];
    $str = "";
    if ($char < 0x80) {
        $str .= $char;
    } else if ($char < 0x800) {
        $str .= chr(0xC0 | $char>>6);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x10000) {
        $str .= chr(0xE0 | $char>>12);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    } else if ($char < 0x200000) {
        $str .= chr(0xF0 | $char>>18);
        $str .= chr(0x80 | $char>>12 & 0x3F);
        $str .= chr(0x80 | $char>>6 & 0x3F);
        $str .= chr(0x80 | $char & 0x3F);
    }
   
    return $str;
}

/**
 * 另一种将unicode编码后的字符串转换成普通编码字符的方法
 * 模拟JS里的unescape()
 *
 * @see        unescape_unicode()
 * @version    Thu Feb 04 10:18:15 CST 2010
 * @param     <string>    $str    待解码的字符串
 * @return    <string> 解码后的字符串
*/
function unescape_unicode($str) {
    $str = rawurldecode($str);
    preg_match_all("/(?:%u.{4})|&#x.{4};|&#/d+;|.+/U",$str,$r);
    $arr = $r[0];
    #print_r($ar);
    foreach($arr as $k=>$v) {
        if(substr($v,0,2) == "%u")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
        elseif(substr($v,0,3) == "&#x")
            $arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
        elseif(substr($v,0,2) == "&#") {
            //echo substr($v,2,-1)."";
            $arr[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
        }
    }
   
    return join("",$arr);
}
?>

关于编码ansi、GB2312、unicode与utf-8的区别

原文:http://zz563143188.iteye.com/blog/1842131 终于对编码有一定的认识,一说编码,就tmd的恶心。   关于编码ansi、GB2312、unicode与...
  • chruan
  • chruan
  • 2013年04月17日 09:00
  • 13620

利用iconv进行GB2312和Unicode的互转

利用iconv函数族进行编码转换 在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。 ...
  • rankun1
  • rankun1
  • 2016年03月16日 16:38
  • 1188

ACSII,GB2312,GBK,GB18030,Unicode,UTF8,UTF16,UTF32,BOM区别与转换——字符编码最全总结

本人总结的最全字符编码概述,分享学习,涉及ACSII,GB2312,GBK,GB18030,Unicode,UTF8,UTF16,UTF32,BOM。 在做总结时被问到字符编码的知识,由于这块知识没...
  • yingmeng9913
  • yingmeng9913
  • 2015年09月29日 14:51
  • 1024

汉字编码对照表(gb2312/unicode/utf8)

一、汉字编码的种类     汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。     1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆...
  • xcysuccess3
  • xcysuccess3
  • 2013年06月21日 14:15
  • 5855

为了使JSON编码解码支持GB2312字符

  • superbirds
  • superbirds
  • 2013年04月16日 16:01
  • 2999

UTF-8, Unicode, GB2312格式串转换之C语言版

int Utf8ToUnicode(void* pOutUnicode, int outBuffLen, char* pInUtf8, int utf8Bytes) {  int curPos = 0...
  • niepangu
  • niepangu
  • 2016年01月27日 20:13
  • 2034

GB2312、GBK、GB18030 这几种字符集的主要区别是什么?

作者:Tuxify 链接:https://www.zhihu.com/question/19677619/answer/12616362 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权...
  • frankie_liu
  • frankie_liu
  • 2017年01月11日 21:33
  • 625

Python 2X 版本 痛苦的编码格式,一遍完美解决Unicode、GB2312、GBK编码格式的文章

1:默认情况下,2X版本的编码格式是'ascii' ,不确定的,查询一下 sys.getdefaultencoding()   2 如果要修改编码格式,使用 import sys relao...
  • ningxiao77
  • ningxiao77
  • 2015年04月10日 15:43
  • 3751

UTF-8, Unicode, GB2312格式串转换之C语言版

这几天工作上碰到了UTF-8转GB2312的问题,而且是在嵌入式的环境下,没有API可用,查了很多网上的资料,大多调用VC或者linux下自带的接口。在这里我将这两天的工作做个总结。 总...
  • Ultraman_hs
  • Ultraman_hs
  • 2017年04月08日 16:59
  • 399

GB2312转UTF8编码表

static T_GB2312ToUTF T_GB2312ToUTFArray[]= { {0xD2BB,0x4E00,0xE4,0xB8,0x80}, //一 {0xB6A1,0x4...
  • huangjiancald
  • huangjiancald
  • 2015年10月29日 22:45
  • 779
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:GB2312 <=> Unicode、GB2312 <=> Big5
举报原因:
原因补充:

(最多只允许输入30个字)