php unicode转utf-8编码解析

最新推荐文章于 2021-03-09 17:50:29 发布

w0710210042

最新推荐文章于 2021-03-09 17:50:29 发布

阅读量902

点赞数 1

本文链接：https://blog.csdn.net/w0710210042/article/details/16826347

版权

php对unicode转utf-8编码

两者存在下面的对应关系：

Unicode符号范围 | UTF-8编码方式

u0000 0000 - u0000 007F   | 0xxxxxxx
u0000 0080 - u0000 07FF   | 110xxxxx 10xxxxxx
u0000 0800 - u0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx

由于目前utf-8使用的字符都是居于UCS-2的，因此对于4-6字节编码的情况是不必考虑的，同样地，在反向转换的时候，如果出现四字节以上的utf-8字符，可以直接视为乱码忽略掉或转为unicode实体形式("&#long int;"形式)，然后交给浏览器或相关解析程序去处理，用php把unicode转为utf-8编码的算法如下：

/*
* 参数 $c 是unicode字符编码的int类型数值，如果是用二进制读取的数据，在php中通常要用 hexdec(bin2hex( $bin_unichar )) 这样转换
*/
function uni2utf8( $c )
{
  if ($c < 0x80)
  {
        $utf8char = chr($c);
  }
  else if ($c < 0x800)
  {
        $utf8char = chr(0xC0 | $c >> 0x06).chr(0x80 | $c & 0x3F);
  }
  else if ($c < 0x10000)
  {
        $utf8char = chr(0xE0 | $c >> 0x0C).chr(0x80 | $c >> 0x06 & 0x3F).chr(0x80 | $c & 0x3F);
  }
    else
  {
        $utf8char = "&#{$c};";
  }
  return $utf8char;
}