PHP版汉字转码

最新推荐文章于 2021-12-24 16:37:46 发布

design321

最新推荐文章于 2021-12-24 16:37:46 发布

阅读量1.3k

点赞数

分类专栏： php

php 专栏收录该内容

63 篇文章 1 订阅

订阅专栏

<?php
function unicode_encode($str, $encoding='GBK', $prefix='&#', $postfix=';'){
 $str = iconv($encoding, 'UCS-2', $str);
 $arrstr = str_split($str, 2);
 $unistr = '';
 for($i=0, $len=count($arrstr); $i<$len; $i++)
 {
  $dec = hexdec(bin2hex($arrstr[$i]));
  $unistr .= $prefix.$dec.$postfix;
 }
 return $unistr;
}
$str = '<b>哈哈</b>';
$unistr = unicode_encode($str);
echo $unistr.'<br />'; 
?>

以上转自：http://blog.csdn.net/zalion/article/details/6239297

以下转自：http://hi.baidu.com/dmkj2008/item/9adbea82c3947e5927ebd958

汉字乱码一般用GB和UTF-8，如果用GB编码，网页用UTF-8，或相反，都会造成汉字无法正确显示
虽然php有模块可以转码，但mb_string的个头比较大，iconv比较适合

但iconv不能把汉字转成ascii的编码，类似ൟ这种。下面函数可以实现此功能：

mb_convert_encoding($string,'HTML-ENTITIES','UTF-8');

函数如下：
function uni2html($s) {
$len=strlen($s);
$rt='';
for($i=0;$i<$len;$i=$i+4) {
   if(ord($s[$i+2])) {
    $rt.='&#'.(ord($s[$i+2])*256+ord($s[$i+3])).';';
   } else $rt.=$s[$i+3];
}
return $rt;
}

例子：
$s='你好';
$a=iconv('UTF-8','UCS-4',$s);
echo uni2html($a);

运行结果：你好

原理：
中文先转成unicode编码，再计算unicode的序号。unicode编码是4个字节，32位定长，英文字母只占用后面的1个字节，中文占用后两个字节。中日韩文字的unicode编码范围4e00 - 9fa5，前两位补零。所以unicode是定长编码，而utf-8是变长编码，一个字符的长度1-3字节，英文字幕一个字节，中文三个字节

ascii 转汉字：