php抓取中文字符

抓取中文的来源可以是文本,网页,只要是有中文的地方就行,每个部分都有注释,里面包含中文的抓取和中文去重两部分。


 <?php
$str = "ddddvvv(,中文.)dfdsfds字啊 啊符啊.";

//把GB2312编码转化为 UTF-8编码
//$str = mb_convert_encoding($str, 'UTF-8', 'GB2312');

//正则匹配
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str, $matches);

//把匹配到的数组连接为字符串
$str = implode('', $matches[0]);

//中文字符去重
$str = str_split($str,3);
$str = array_unique($str);
$str = implode($str);

//把UTF-8编码转化为 GB2312编码
$str = mb_convert_encoding($str, 'GB2312', 'UTF-8'); 

echo $str; 
?>


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值