在php编程中,一提到字符串截取,我们一般会想到substr方法,对于英文的字符串来说是比较好的处理方法,但是如果是汉字的话,用此方法处理的时候截取到的都是乱码。测试代码如下:
$a = '汉字截取字符串测试';
$b = substr($a, 0, 2);
var_dump($b);
得到输出如下:
string '�' (length=2)
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
如果代码如下:
$a = '汉字截取字符串测试';
$b = substr($a, 0, 3);
var_dump($b);
得到输出如下:
string '汉' (length=3)
编辑器是用utf-8保存文件的,由此得出utf-8下的中文一个汉字占了3个字节,如果是GB2312的话则占用的是2个字节,为了解决这个问题,我们可以使用mbstring扩展库中的mb_substr()方法来解决这个问题。代码如下:
<?php
header("Content-type:text/html;charset=utf-8");
//mb_internal_encoding('UTF-8'); //注意内部编码一定要设置位utf-8,也可以把这行打开,去掉mb_substr中的第四个参数
$a = '汉字截取字符串测试';
$b = mb_substr($a, 0, 3, 'utf-8');
var_dump($b);
得到输出如下:
string '汉字截' (length=9)