编写 PHP 代码的过程中,经常会遇到需要对中文转码的问题,如 GB2312 <=> Unicode、GB2312 <=> Big5 等等。如果 PHP 编译时带有 mbstring 的话,可以使用 Multi-Byte String Function 实现部分转码工作。然而由于很多虚拟主机不支持 mbstring,或者 mbstring 的编译、配置过于麻烦,很多 PHP 代码无法使用这一序列的函数。
最近为了解决这个问题,让我心烦不已,通过搜集资料和整理,终于实现了GB2312 Big5 Unicode(UTF-8) 之间的相互转码,不敢独享,现发布出来:
<?php
/**
* 将字符串转换成unicode编码
*
* @param string $input 待转换的字符
* @param string $input_charset 字符编码
* @return string $outstr
*/
if (!function_exists('str_to_unicode')) {
function str_to_unicode($input, $input_charset = 'gbk'){
$input = iconv($input_charset, "gbk", $input);
preg_match_all("/[/x80-/xff]?./", $input, $arr);
$str = array_map('utf8_to_unicode', $arr[0]);
$outstr = join("", $str);
return $outstr;
}
}
/**
* 处理转换(utf8 -> unicode)
*
* @see name()
* @version Thu Feb 04 10:09:24 CST 2010
* @param string $input 待转换的字符
* @param string $input_charset 字符编码
* @return <string> 转换后的字符
*/
function utf8_to_unicode($char, $input_charset = 'gbk') {
if ($input_charset != 'utf-8') {
$char = iconv($input_charset, 'utf-8', $char);
}
switch(strlen($char)) {
case 1:
return $char;
case 2:
$n = (ord($char[0]) & 0x3f) << 6;
$n += ord($char[1]) & 0x3f;
break;
case 3:
$n = (ord($char[0]) & 0x1f) << 12;
$n += (ord($char[1]) & 0x3f) << 6;
$n += ord($char[2]) & 0x3f;
break;
case 4:
$n = (ord($char[0]) & 0x0f) << 18;
$n += (ord($char[1]) & 0x3f) << 12;
$n += (ord($char[2]) & 0x3f) << 6;
$n += ord($char[3]) & 0x3f;
break;
}
return "&#$n;";
}
/**
* 将unicode编码后的字符串转换成普通编码字符
*
* @param string $str 要解码的字符
* @param string $out_charset 输出的字符编码
* @return string 解码后的字符串
*/
function str_from_unicode($str, $out_charset = 'gbk'){
//如果不是unicode编码过的字符串,直接返回
if (!preg_match('|&#([0-9]{1,5});|', $str)) {
return $str;
}
$str = preg_replace_callback("|&#([0-9]{1,5});|", 'unicode_to_utf8', $str);
$str = iconv("UTF-8", $out_charset, $str);
return $str;
}
/**
* 处理解码
*
* @param <string> $char 待解码的字符
* @return <string> 解码后的字符
*/
function unicode_to_utf8($char){
$char = $char[1];
$str = "";
if ($char < 0x80) {
$str .= $char;
} else if ($char < 0x800) {
$str .= chr(0xC0 | $char>>6);
$str .= chr(0x80 | $char & 0x3F);
} else if ($char < 0x10000) {
$str .= chr(0xE0 | $char>>12);
$str .= chr(0x80 | $char>>6 & 0x3F);
$str .= chr(0x80 | $char & 0x3F);
} else if ($char < 0x200000) {
$str .= chr(0xF0 | $char>>18);
$str .= chr(0x80 | $char>>12 & 0x3F);
$str .= chr(0x80 | $char>>6 & 0x3F);
$str .= chr(0x80 | $char & 0x3F);
}
return $str;
}
/**
* 另一种将unicode编码后的字符串转换成普通编码字符的方法
* 模拟JS里的unescape()
*
* @see unescape_unicode()
* @version Thu Feb 04 10:18:15 CST 2010
* @param <string> $str 待解码的字符串
* @return <string> 解码后的字符串
*/
function unescape_unicode($str) {
$str = rawurldecode($str);
preg_match_all("/(?:%u.{4})|&#x.{4};|&#/d+;|.+/U",$str,$r);
$arr = $r[0];
#print_r($ar);
foreach($arr as $k=>$v) {
if(substr($v,0,2) == "%u")
$arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
elseif(substr($v,0,3) == "&#x")
$arr[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
elseif(substr($v,0,2) == "&#") {
//echo substr($v,2,-1)."";
$arr[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
}
}
return join("",$arr);
}
?>