php 便利字符串,中文分词-php逐个汉字遍历字符串

我有个字符串,格式为$str = "中华人民abc共和\x01国",如何逐个汉字遍历该字符串呢?即:能够输出“中” “华” “人” “民” “a” ...

我现在使用的方法是:for($i =0 ; $i < len ; $i++) {$sub_str = mb_substr($str, $i, 1)},但这样做效率太低。

请问应该如何提高效率?是否可以讲$str转换为数组?

回复内容:

我有个字符串,格式为$str = "中华人民abc共和\x01国",如何逐个汉字遍历该字符串呢?即:能够输出“中” “华” “人” “民” “a” ...

我现在使用的方法是:for($i =0 ; $i < len ; $i++) {$sub_str = mb_substr($str, $i, 1)},但这样做效率太低。

请问应该如何提高效率?是否可以讲$str转换为数组?

function str_split_unicode($str, $l = 0) {

if ($l > 0) {

$ret = array();

$len = mb_strlen($str, "UTF-8");

for ($i = 0; $i < $len; $i += $l) {

$ret[] = mb_substr($str, $i, $l, "UTF-8");

}

return $ret;

}

return preg_split("//u", $str, -1, PREG_SPLIT_NO_EMPTY);

}

$s = '中华人民abc共和\x01国';

print_r(str_split_unicode($s));

Array

(

[0] => 中

[1] => 华

[2] => 人

[3] => 民

[4] => a

[5] => b

[6] => c

[7] => 共

[8] => 和

[9] => \

[10] => x

[11] => 0

[12] => 1

[13] => 国

)

//UTF8算法,其它编码自行转换

$cind = 0;

$arr_cont = array();

for ($i = 0; $i < strlen($tempaddtext); $i++) {

if (strlen(substr($tempaddtext, $cind, 1)) > 0) {

if (ord(substr($tempaddtext, $cind, 1)) < 192) { //如果为英文则取1个字节

if (substr($tempaddtext, $cind, 1) != " ") {

array_push($arr_cont, substr($tempaddtext, $cind, 1));

}

$cind++;

} elseif(ord(substr($tempaddtext, $cind, 1)) < 224) {

array_push($arr_cont, substr($tempaddtext, $cind, 2));

$cind+=2;

} else {

array_push($arr_cont, substr($tempaddtext, $cind, 3));

$cind+=3;

}

}

}

print_r($arr_cont);

本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

本文系统来源:php中文网

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值