如何用正则表达式匹配中文

前几天因为在做学校教务处的爬虫,用php抓取的成绩和课程表竟然返回的是html格式的数据,也是很醉。没办法,干脆用正则匹配吧。因为之前并没有学过正则表达式,只好恶补了一下。在匹配的过程中遇到了一些问题,特别是在匹配中文的时候,很是蛋疼。下面说一下我的学习成果。

  1. 使用php在匹配中文的时候不能使用 \w 来匹配,可以使用元字符 . 来粗略匹配中文
  2. 精确匹配中文时需要考虑编码环境,gb2312和 utf-8。这两种编码有什么区别呢 ? 最主要的就是gb2312编码的汉字占两个字节,而utf-8编码的汉字占3个字节。

一、好了,下面进入正题,如果你想匹配中文的话,可以采用下面的表达式:

utf-8编码:

[\x{4e00}-\x{9fa5}]
例如:匹配5个汉字,便可以这么写:

/[\x{4e00}-\x{9fa5}]{5}/u
千万注意,这个最后面的u一定要加上(如果是使用php的话),否则是无法正常匹配的。
二、通过上面的表达式我们可以匹配一段模糊的中文,那如果我们想要匹配精准的某个字或者词语呢 ?例如,我在做教务处爬虫时,抓取到的成绩不仅仅只是数字,还有优秀、通过、良好等。这种我们总不能漏掉吧? 可以使用下面的方式来匹配:

1. 先将汉字转换成为16进制Unicode编码,可以在这个网站方便的转换:Unicode与中文互转 16进制Unicode编码转换、还原

例如我们将 优秀 两个字转换成了该编码,为 :  \u4f18\u79c0

2. 匹配 优秀 两个汉字的正则表达式如下:

/\x{4f18}\x{79c0}/u

想必大家应该已经明白了,拿到16进制编码后,有这么几步,将u改为x, 再将具体的16进制编码加上{ },最后不要忘记加上u

三、包含换行段落的匹配

先给出一段需匹配的代码:

<span style="white-space:pre">	</span><tr class="H">
                <td class="td0" style='width:5%;padding:0px;' colspan='2'></td>
                <td class='td0' style="width:13%;height:20px;">
                    星期一
                </td>
                <td class='td0' style="width:13%;height:20px;">
                    星期二
                </td>
                <td class='td0' style="width:13%;height:20px;">
                    星期三
                </td>
                <td class='td0' style="width:13%;height:20px;">
                    星期四
                </td>
                <td class='td0' style="width:13%;height:20px;">
                    星期五
                </td>
                <td class='td0' style="width:13%;height:20px;">
                    星期六
                </td>
                <td class='td0' style="width:13%;height:20px;">
                    星期日
                </td>
<span style="white-space:pre">	</span></tr>
我们的目标是从这段html代码中抓取星期一   —  星期日,有人可能会说,直接匹配td标签,来个for循环就好了吗,但现在我只是给出一个例子,很多时候我们拿到的数据并不像这样有规律,所以成段匹配还是很有必要的。

我一开始尝试的方法是从<tr>匹配到</tr>, 将其中的汉字全部抓出来 ,但很不幸,失败了。原因就是在于其中的换行,那我们怎样才能匹配包含换行的文本呢 ?其实方法很简单,只要使用这个表达式:/[.\s\S]*/

我曾经试过使用 /[.\n]/  来匹配,但是并不可以。上面的表达式完美的解决了问题。

### 回答1: 在LabVIEW中,可以使用正则表达式来匹配中文汉字。LabVIEW以支持PCRE(Perl Compatible Regular Expressions)语法,并具有相应的函数来处理正则表达式。 首先,在LabVIEW的Block Diagram中,选择适当的函数,例如"Match Regular Expression"函数。然后,创建一个正则表达式,用于匹配中文汉字中文汉字的Unicode编码范围是[\u4e00-\u9fa5],因此我们可以使用"[\u4e00-\u9fa5]+"来匹配一个或多个中文汉字。 接下来,我们需要将要匹配的字符串输入到正则表达式函数中。可以使用字符串常量或者将字符串变量传递给该函数。 最后,我们可以使用其他的LabVIEW函数,例如"Match Result"函数来获取匹配结果。这将返回匹配的字符串以及匹配的位置等信息。 需要注意的是,在使用LabVIEW进行正则表达式匹配时,可能会遇到一些编码问题。确保所用的字符串编码与文本编码一致,例如UTF-8编码。可以使用LabVIEW的字符串操作函数对字符串进行编码转换。 综上所述,LabVIEW可以使用正则表达式来匹配中文汉字。通过选择正确的函数,创建合适的正则表达式,并处理可能遇到的编码问题,可以有效地在LabVIEW中进行中文汉字的匹配。 ### 回答2: 在LabVIEW中使用正则表达式匹配中文汉字的方法如下: 1. 首先,将需要匹配的文本数据传入LabVIEW的字符串变量中。 2. 使用正则表达式匹配函数Cluster Match Pattern,该函数位于LabVIEW的字符串函数库中。设置正则表达式的输入,以匹配中文汉字的Unicode编码范围。 3. 正则表达式的输入可以使用Unicode编码来匹配中文汉字,使用\p{IsHan}表示中文汉字字符。具体的正则表达式如下所示:\p{IsHan} 4. 将匹配的结果传入到另一个字符串变量中。 5. 最后,根据匹配结果进行相应的操作,例如显示匹配的中文汉字结果或者进行其他的处理。 需要注意的是,LabVIEW的正则表达式匹配函数由于采用的是Perl风格的正则表达式语法,与传统的常规正则表达式语法存在略微的差异。在使用过程中,可能需要根据实际需求进行一些调整和适配。 总之,通过LabVIEW的正则表达式匹配函数,我们可以实现对中文汉字的匹配和处理。 ### 回答3: 在LabVIEW中,可以使用正则表达式来匹配中文汉字。 首先,在LabVIEW中,我们可以使用"正则表达式.vi"这个内置的函数来实现正则表达式的匹配功能。这个函数可以根据输入的正则表达式模式,对一个字符串进行匹配操作。 接下来,如果我们想要匹配中文汉字,可以使用Unicode的特性来实现。每个中文汉字都对应一个Unicode码点,我们可以借助这个码点来进行匹配。 比如,要匹配一个字符串中的中文汉字,可以使用"\\p{Script=Han}"这个正则表达式模式。这个模式会匹配任意一个中文汉字。 在LabVIEW中,我们可以将这个正则表达式模式作为输入,传给"正则表达式.vi"这个函数,然后再将要匹配的字符串作为输入传给该函数。函数运行后,如果匹配成功,就可以得到匹配到的中文汉字。 需要注意的是,LabVIEW对正则表达式的支持相对较弱,可能不支持某些高级的正则表达式语法。如果遇到复杂的匹配需求,可能需要使用其他编程语言或工具来实现。 总之,LabVIEW中可以使用正则表达式来匹配中文汉字,可以通过传递特定的正则表达式模式实现匹配操作,从而得到匹配到的中文汉字
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值