php实现过滤中英文标点符号[gbk编码环境]

在GBK编码环境下,针对项目需求去除帖子标题中的中英文标点符号,遇到乱码问题。通过优化正则表达式和处理方式,解决了字被错误替换的状况,实现逐字匹配确保不产生乱码。博客分享了GBK编码的单字节与双字节知识,并提供了处理长字符串的建议。
摘要由CSDN通过智能技术生成

因项目需求需要对帖子标题做去重判断,前提是去除所有中英文标点符号。因为是老项目,gbk编码,在直接使用正则匹配去除标点符号时,发现会有乱码情况。在网上找了一些处理方法,多多少少都有些问题,满足不了我的需求。但也受到了些许启发,开始写了一个实现方法,有些麻烦,需要urlencode。

/**
 * 去除字符串中的标点符号[gbk编码环境]
 * @param $str
 * @return string
 */
function punctFilter($str){
   
    //先去掉英文标点符号、空格等
    $str = preg_replace('/[[:punct:]\s\n\t\r]/','',$str);
    //再匹配中文标点符号 直接进行中文标点符号匹配会乱码,因此先编码后匹配。
    //若以下标点还满足不了需要,可搜索中文gbk编码表,将对应标点符号加上即可。
    $pattern = '/(%a1%a0|%a1%a1|%a1%a2|%a1%a3|%a1%a4|%a1%a5|%a1%a6|%a1%a7|%a1%a8|%a1%a9|%a1%aa|%a1%ab|%a1%ac|%a1%ad|%a1%ae|%a1%af|%a1%b0|%a1%b1|%a1%b2|%a1%b3|%a1%b4|%a1%b5|%a1%b6|%a1%b7|%a1%b8|%a1%b9|%a1%ba|%a1%bb|%a1%bc|%a1%bd|%a1%be|%a1%bf|%a1%c0|%a1%c1|%a1%c2|%a1%c3|%a1%c4|%a1%c5|%a1%c6|%a1%c7|%a1%c8|%a1%c9|%a1%ca|%a1%cb|%a1%cc|%a1%cd|%a1%ce|%a1%cf|%a1%d0|%a1%d1|%a1%d2|%a1%d3|%a1%d4|%a1%d5|%a1%d6|%a1%d7|%a1%d8|%a1%d9|%a1%da|%a1%db|%a1%dc|%a1%dd|%a1%de|%a1%df|%a1%e0|%a1%e1|%a1%e2|%a1%e3|%a1%e4|%a1%e5|%a1%e6|%a1%e7|%a1%e8|%a1%e9|%a1%ea|%a1%eb|%a1%ec|%a1%ed|%a1%ee|%a1%ef|%a1%f0|%a1%f1|%a1%f2|%a1%f3|%a1%f4|%a1%f5|%a1%f6|%a1%f7|%a1%f8|%a1%f9|%a1%fa|%a1%fb|%a1%fc|%a1%fd|%a3%a0|%a3%a1|%a3%a2|%a3%a3|%a3%a4|%a3%a5|%a3%a6|%a3%a7|%a3%a8|%a3%a9|%a3%aa|%a3%ab|%a3%ac|%a3%ad|%a3%ae|%a3%ba|%a3%bb|%a3%bc|%a3%bd|%a3%be|%a3%bf|%a3%c0|%a3%db|%a3%dc|%a3%dd|%a3%de|%a3%df|%a3%e0|%a3%fb|%a3%fc|%a3%fd|%a3%fe|%a3%ff)/iu';
    $str = preg_replace($pattern, '', urlencode($str));
    retu
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值