中文截取字符串的方法

最新推荐文章于 2021-11-13 10:30:12 发布

aarontong00

最新推荐文章于 2021-11-13 10:30:12 发布

阅读量696

点赞数

分类专栏： php 文章标签：汉字截取

本文链接：https://blog.csdn.net/aarontong00/article/details/53096123

版权

php 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

在php编程中，一提到字符串截取，我们一般会想到substr方法，对于英文的字符串来说是比较好的处理方法，但是如果是汉字的话，用此方法处理的时候截取到的都是乱码。测试代码如下：

$a = '汉字截取字符串测试';
  
$b = substr($a, 0, 2);
  
var_dump($b);

得到输出如下：

string '�' (length=2)

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

如果代码如下：

$a = '汉字截取字符串测试';
  
$b = substr($a, 0, 3);
  
var_dump($b);

得到输出如下：

string '汉' (length=3)

编辑器是用utf-8保存文件的，由此得出utf-8下的中文一个汉字占了3个字节，如果是GB2312的话则占用的是2个字节，为了解决这个问题，我们可以使用mbstring扩展库中的mb_substr()方法来解决这个问题。代码如下：

<?php
header("Content-type:text/html;charset=utf-8");
 //mb_internal_encoding('UTF-8'); //注意内部编码一定要设置位utf-8,也可以把这行打开,去掉mb_substr中的第四个参数 
    
$a = '汉字截取字符串测试';  
    
$b = mb_substr($a, 0, 3, 'utf-8');  
    
var_dump($b);

得到输出如下：