大家都知道,substr是截取字符的函数,但是很多时候,截取中文却需要额外处理,原因是中文在UTF-8中占用3个字节,在GB2312中占用2个字节,在截取中随时存在截取的字符串长度与组成未知,所以给很多人造成了困扰。并且本人就遇到过类似问题。
在写站内短消息-系统消息的过程中,老杨要求将消息的部分内容予以截取显示,但是问题来了。我不能确定内容中的中文有多少个、字母有多少个、怎么组合的,那么我单纯的使用substr的话就出现了几个 框框,悲剧的很
<?php
$str='我是a叶/include';
echo substr($str,1,7);
?>
会出现什么错误我就不说了,大家可以演示一下
其实,PHP早就想到了这个问题,毕竟PHP应用于各种语言之中,中文被世界上至少四分之一以上的人口使用中,所以,一个强有力的解决方案极其重要,因此,至PHP5开始,iconv_substr函数随之出现
<?php
$str='我是a叶/include';
echo substr($str,1,7);
echo '<hr>';
echo iconv_substr($str,1,-7,"UTF-8");
?>
这个是在网页编码为UTF-8的PHP代码中使用的截取编码
如果在UTF-8网页中使用GB2312或者GBK编码来截取,会出错,理由已经写了,占用字节不同;反之,在GB2312或GBK网页中,不能使用UTF-8来进行截取
值得注意的是,由于iconv_substr是按照字符而非占用字节来计算,所以“a”和“叶”均计算为1位
所以,上面显示的结果是“是a叶/ ”
补充,在GB2312或者GBK中,由于占用字节是一样的,所以可以随意使用GB2312或GBK编码来截取,截取结果是一样的