unicode utf8 转换 php,Unicode和Utf-8转换

[TOC]

# Unicode和Utf-8编码的区别

Unicode是一个字符集,定义了字符与数字之间的对应关系,在Unicode中:汉字“字”对应的数字是23383(十进制),十六进制表示为5B57。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、UTF-16、UTF-32。UTF是“Unicode Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。可以把utf-8理解成unicode编码规则在计算机中的实现方式

nicode全部用两个字节表示一个字符(所以最多可以表示65535个字符,其中中文的区间是 4e00 ~ 9fbf),通常用 '\u' 加上四位的十六进制数表示,比如 ‘你’的unicode编码是‘\u4f60’

json格式中汉字就是用这种格式表示,比如:

~~~

echo json_encode(array('msg' => '你好')); //{"msg":"\u4f60\u597d"}

~~~

而UTF-8并不是定长的,目前是用1-3个字节表示一个字符,对于ASCII字符,UTF-8同样使用一个字节表示,这样就可以兼容ASCII,对于汉字UTF-8使用三个字节来表示。URL中的汉字编码就采用这种方式来表示

~~~

echo urlencode('你'); //%E4%BD%A0 E4BDA0 就是‘你’的 UTF-8编码

~~~

# Utf-8怎么逆转回Unicode呢

当然在UTF-8到Unicode的转换也是通过移位等来完成的,就是把UTF-8那些格式相应的位置的二进制数给揪出来。在上述例子中“你”为三个字节,因此要每个字节进行处理,有高位到低位进行处理。在UTF-8中“你”为11100100,10111101,10100000。从高位起即第一个字节11100100就是把其中的"0100"给取出来,这个很简单只要和11111(0x1F)取与(&),由三字节可以得知最到位肯定位于12位之前,因为每次取六位。所以还要将得到的结果左移12位,最高位也就这样完成了0100,000000,000000。而第二位则是要把“111101”给取出来,则只需将第二字节10111101和111111(0x3F)取与(&)。在将所得到的结果左移6位与最高字节所得的结果取或(|),第二位就这样完成了,得到的结果为0100,111101,000000。以此类推最后一位直接与111111(0x3F)取与(&),再与前面所得的结果取或(|)即可得到结果0100,111101,100000。

~~~

/**

* utf8字符转换成Unicode字符

* @param [type] $utf8_str Utf-8字符

* @return [type] Unicode字符

*/

function utf8_str_to_unicode($utf8_str) {

$unicode = 0;

$unicode = (ord($utf8_str[0]) & 0x1F) << 12;

$unicode |= (ord($utf8_str[1]) & 0x3F) << 6;

$unicode |= (ord($utf8_str[2]) & 0x3F);

return dechex($unicode);

}

/**

* Unicode字符转换成utf8字符

* @param [type] $unicode_str Unicode字符

* @return [type] Utf-8字符

*/

function unicode_to_utf8($unicode_str) {

$utf8_str = '';

$code = intval(hexdec($unicode_str));

//这里注意转换出来的code一定得是整形,这样才会正确的按位操作

$ord_1 = decbin(0xe0 | ($code >> 12));

$ord_2 = decbin(0x80 | (($code >> 6) & 0x3f));

$ord_3 = decbin(0x80 | ($code & 0x3f));

$utf8_str = chr(bindec($ord_1)) . chr(bindec($ord_2)) . chr(bindec($ord_3));

return $utf8_str;

}

~~~

测试下

~~~

$utf8_str = '我';

//这是汉字“你”的Unicode编码

$unicode_str = '4f6b';

//输出 6211

echo utf8_str_to_unicode($utf8_str) . "
";

//输出汉字“你”

echo unicode_str_to_utf8($unicode_str);

~~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值