php 正则匹配unicode,PHP中正则表达式对UNICODE字符码的匹配

最新推荐文章于 2023-08-10 15:46:19 发布

weixin_39556853

最新推荐文章于 2023-08-10 15:46:19 发布

阅读量207

点赞数

文章标签： php 正则匹配unicode

本文详细分析了一位网友在使用PHP正则表达式时遇到的问题，涉及chr函数、ASCII码、Unicode字符匹配以及preg_replace函数的使用。通过解析正则表达式`/[chr(128)-chr(256)]+/is`，指出其实际匹配的范围及错误原因，并给出了解决方案，强调了正确匹配Unicode字符的方法和修饰符的使用。

摘要由CSDN通过智能技术生成

酷暑难耐，又在家宅一整天。天气热或许是借口，尽管不热，我也喜欢宅在家。晚上看新三国83集(插一句，最近世界杯很火，可是我不看世界杯。来鄙视我吧)，一直看到10点半，突然觉得肚子痛，赶紧直奔厕所。如厕之后，觉得精神抖擞，容光焕发，年轻了二十多岁，打开QQ，看到N多条消息，其中有条是生命如蓝同学留的。打开一看，是PPC的链接，突然觉得我好久没登陆PPC了，想当年……..算了，看链接吧。

打开链接，看到标题是“请教PHP 一个正则匹配的问题”，又是正则表达式，好吧，看下，谁让俺比较喜欢鼓捣正则呢。下面开始正题。

网友ainiaa的问题是

PHP代码如下

$words = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSRUVWXYZ!@#$%^&*()_+-=[]\\,./{}|<>?'\"你好啊我们";

$otherStr=preg_replace("/[chr(128)-chr(256)]+/is"," ",$words);

echo 'otherStr:',$otherStr;

为什么打印的结果会是：

otherStr: ! #$% & {}| ‘”你好啊我们

麻烦问下其中正则表达式 /[chr(128)-chr(256)]+/is 代表什么意思？

如果/[chr(128)-chr(256)]+/is 指的是ascii码在128到256的字符，为什么a-zA-Z这样的字符也被替换掉了，他们的ascii码是小于127的。

最令人郁闷的是为什么ascii码同在0-127区间”#”,”$”,”%”,”&”, “!”,” {“,”}”,”|”,” ‘”,”确没有被替换掉？？？？

更令人感觉神奇的是如果把正则表达式修改为”/[chr(128)-chr(256)]+/s”的话，输出的结果就变成了： otherStr: defg ijklmnopq stuvwxyz ! #$% & {}| ‘”你好啊我们

只是把正则表达式中的符号‘i’给去掉，结果缺失这样的。完全的令我理解不了。

不知各位有何见解？？？？

另附ascii 码对照表

(这个ASCII码表的图我就不贴了)

回帖中，有个网友说没解析chr(128)这些，并给出了新的解决方法。首先说下此网友回答的是正确的，先不评论他是否“知其然，且知其所以然”，这位网友没有给出错误的原因。

CFC4N来回答一下这位网友：

PHP的正则的preg_match函数用的是PCRE正则引擎，这位网友的代码中，PCRE引擎处理的正则表达式为【/[chr(128)-chr(256)]+/is】，后面的is是什么呢？

在PHP的正则里，边界字符后面的叫模式修饰符。它会告诉引擎如何解析，处理正则。其中i修饰符表示不区分大小写。s表示“点号通配模式”，用来让正则里的元字符点号【.】可以匹配换行符，这个修饰符仅对点号【.】起作用。在这位网友的问题中，修饰符s并不起作用的。

查找原因：

我们在来分析一下这个网友写的正则表达式【[chr(128)-chr(256)]+】，正则表达式的PCRE引擎是如何解释这个正则的呢？首先，我们要知道，在正则表达式中，中括号【[]】表示字符组，字符组中除了连接符【-】只外，都不是元字符，也就是说，都是普通字符，当然，如果连字符出现在第一个，或者不是标识两个字符之间范围的，都是普通的字符横杠“-”罢了。这里的chr(128)只是标识ASCII码为128(确切的说，ASCII码只是0-127个，128到其他的，应该不叫ASCII码了。)，但是在正则里，他仍然代表【c、h、r、(、1、2、8、)】(顿号不是，只是区分易读的)这八个字符罢了。这个正则里的连接字符，是哪些范围呢？很明显，这里的连接字符的范围是【)-c】，“)”ASCII码为0x29，也就是十进制的41；“c”的ASCII码为0x63，也就是十进制的99，那么，他这个连接字符的范围就是ASCII 41(chr(41))到ASCII 99(chr(99))之间的字符。也就是说，这位网友的正则的范围是【[hr)-c(]】，就是chr(41)到chr(99)外加hr这两个字母和前面的“(”。

网友第一次测试的时候，有修饰符i，意思就是说，不区分大小写，那么在chr(41)到chr(99)之间的字符，以及这些字符如果有大小写，则包括他们的大小写都符合匹配。都会被替换成空。其第二次测试的时候，去掉了修饰符i，进行了不区分大小写的匹配，由于其范围只到c，但突然，再除了小写字母的“h”、“r”，所以，测试结果会多出“defgijklmnopqstuvwxyz”。所以，他的结果出现了这些差别。

PHP正则表达式匹配UNICODE字符

网友的表达式等同于如下图所示

PHP正则表达式匹配UNICODE字符

解决办法：

错误的原因找出来了，那么，解决的办法呢？

我们先来看看这位网友的需求，他的需求是将unicode(ASCII只是0-127位的，128之后的，应该叫UNICODE码)的chr(128)到chr(255)之间的字符匹配，替换为空罢了。正则表达式里，对十六进制的字符匹配的表示方式有两种，【\u】和【\x{}】，前者只能表示【\u】后面4位的十六进制数值，而后者【\x{}】则可以表示任意多的十六进制位数(写在大括号中)。

那么，这个正则表达式该如何写？？？？

网友的目的是chr(128)到chr(255)，那么就是【[\u0080-\u00FF]】或者【[\x{0080}-\x{00FF}]】。

其目的是匹配下图中的红框内字符