正则表达式匹配中文

风欲止于你

于 2017-10-20 11:12:10 发布

阅读量3.5k

点赞数 1

分类专栏： PHP 文章标签： PHP正则正则匹配正则表达式 utf-8

PHP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

使用php在匹配中文的时候不能使用 \w 来匹配，可以使用元字符 . 来粗略匹配中文
精确匹配中文时需要考虑编码环境，gb2312和 utf-8。这两种编码有什么区别呢？最主要的就是gb2312编码的汉字占两个字节，而utf-8编码的汉字占3个字节。

一、好了，下面进入正题，如果你想匹配中文的话，可以采用下面的表达式：

utf-8编码：

[plain] view plain copy

[\x{4e00}-\x{9fa5}]

例如：匹配5个汉字，便可以这么写：

[plain] view plain copy

/[\x{4e00}-\x{9fa5}]{5}/u

千万注意，这个最后面的u一定要加上（如果是使用php的话），否则是无法正常匹配的。
二、通过上面的表达式我们可以匹配一段模糊的中文，那如果我们想要匹配精准的某个字或者词语呢？例如，我在做教务处爬虫时，抓取到的成绩不仅仅只是数字，还有优秀、通过、良好等。这种我们总不能漏掉吧？可以使用下面的方式来匹配：

1. 先将汉字转换成为16进制Unicode编码，可以在这个网站方便的转换：Unicode与中文互转 16进制Unicode编码转换、还原

例如我们将优秀两个字转换成了该编码，为 : \u4f18\u79c0

2. 匹配优秀两个汉字的正则表达式如下：

[plain] view plain copy

/\x{4f18}\x{79c0}/u

想必大家应该已经明白了，拿到16进制编码后，有这么几步，将u改为x, 再将具体的16进制编码加上{ }，最后不要忘记加上u

三、包含换行段落的匹配

先给出一段需匹配的代码：

[html] view plain copy

<span style="white-space:pre"> </span><tr class="H">
<td class="td0" style='width:5%;padding:0px;' colspan='2'></td>
<td class='td0' style="width:13%;height:20px;">
星期一
</td>
<td class='td0' style="width:13%;height:20px;">
星期二
</td>
<td class='td0' style="width:13%;height:20px;">
星期三
</td>
<td class='td0' style="width:13%;height:20px;">
星期四
</td>
<td class='td0' style="width:13%;height:20px;">
星期五
</td>
<td class='td0' style="width:13%;height:20px;">
星期六
</td>
<td class='td0' style="width:13%;height:20px;">
星期日
</td>
<span style="white-space:pre"> </span></tr>

我们的目标是从这段html代码中抓取星期一 — 星期日，有人可能会说，直接匹配td标签，来个for循环就好了吗，但现在我只是给出一个例子，很多时候我们拿到的数据并不像这样有规律，所以成段匹配还是很有必要的。

我一开始尝试的方法是从<tr>匹配到</tr>, 将其中的汉字全部抓出来，但很不幸，失败了。原因就是在于其中的换行，那我们怎样才能匹配包含换行的文本呢？其实方法很简单，只要使用这个表达式：/[.\s\S]*/

我曾经试过使用 /[.\n]/ 来匹配，但是并不可以。上面的表达式完美的解决了问题。

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

风欲止于你

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
正则表达式匹配中文

使用php在匹配中文的时候不能使用 \w 来匹配，可以使用元字符 . 来粗略匹配中文精确匹配中文时需要考虑编码环境，gb2312和 utf-8。这两种编码有什么区别呢？最主要的就是gb2312编码的汉字占两个字节，而utf-8编码的汉字占3个字节。一、好了，下面进入正题，如果你想匹配中文的话，可以采用下面的表达式：utf-8编码：[plain] view plain
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。