正则表达式匹配中文时发现的问题

大家使用正则表达式匹配中文时,常用 [\u4e00-\u9fa5] ,但有时使用 [\u4e00-\u9fa5] 匹配汉字时,发现有的汉字匹配不到,如:

㸌如
㔩叶

使用Python3测试:

r = '[^\u4e00-\u9fa5]'					#非汉字
for i in words:
	word = re.sub(r, '', i)				#替换掉非汉字
	if len(word) == 1:					
		print('"{0}"变成了"{1}"'.format(i, word))

结果为:

"㸌如"变成了"如"
"㔩叶"变成了"叶"

这是为什么呢?下面是几个主要的非英文语系字符范围:

2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

如果将字符范围扩大为 \u4e00-\u9fff 会如何呢?

r = '[^\u4e00-\u9fff]'					
for i in words:
	word = re.sub(r, '', i)				
	if len(word) == 1:					
		print('"{0}"变成了"{1}"'.format(i, word))

结果还是:

"㸌如"变成了"如"
"㔩叶"变成了"叶"

继续扩大字符范围为 \u3400-\u9fa5:

r = '[^\u3400-\u9fa5]'					
for i in words:
	word = re.sub(r, '', i)				
	if len(word) == 1:					
		print('"{0}"变成了"{1}"'.format(i, word))

这次终于匹配到了,结果为:

"㸌如"变成了"㸌如"
"㔩叶"变成了"㔩叶"

这说明 “㸌” 和 “㔩” 两个字不在 4E00~9FFFh 范围内,而在 3400~4DFFh 范围中,所以,在使用 [\u4e00-\u9fa5] 匹配中文结果不正确时,可以扩大匹配范围尝试。

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在LabVIEW中,可以使用正则表达式匹配中文汉字。LabVIEW以支持PCRE(Perl Compatible Regular Expressions)语法,并具有相应的函数来处理正则表达式。 首先,在LabVIEW的Block Diagram中,选择适当的函数,例如"Match Regular Expression"函数。然后,创建一个正则表达式,用于匹配中文汉字。中文汉字的Unicode编码范围是[\u4e00-\u9fa5],因此我们可以使用"[\u4e00-\u9fa5]+"来匹配一个或多个中文汉字。 接下来,我们需要将要匹配的字符串输入到正则表达式函数中。可以使用字符串常量或者将字符串变量传递给该函数。 最后,我们可以使用其他的LabVIEW函数,例如"Match Result"函数来获取匹配结果。这将返回匹配的字符串以及匹配的位置等信息。 需要注意的是,在使用LabVIEW进行正则表达式匹配,可能会遇到一些编码问题。确保所用的字符串编码与文本编码一致,例如UTF-8编码。可以使用LabVIEW的字符串操作函数对字符串进行编码转换。 综上所述,LabVIEW可以使用正则表达式匹配中文汉字。通过选择正确的函数,创建合适的正则表达式,并处理可能遇到的编码问题,可以有效地在LabVIEW中进行中文汉字的匹配。 ### 回答2: 在LabVIEW中使用正则表达式匹配中文汉字的方法如下: 1. 首先,将需要匹配的文本数据传入LabVIEW的字符串变量中。 2. 使用正则表达式匹配函数Cluster Match Pattern,该函数位于LabVIEW的字符串函数库中。设置正则表达式的输入,以匹配中文汉字的Unicode编码范围。 3. 正则表达式的输入可以使用Unicode编码来匹配中文汉字,使用\p{IsHan}表示中文汉字字符。具体的正则表达式如下所示:\p{IsHan} 4. 将匹配的结果传入到另一个字符串变量中。 5. 最后,根据匹配结果进行相应的操作,例如显示匹配中文汉字结果或者进行其他的处理。 需要注意的是,LabVIEW的正则表达式匹配函数由于采用的是Perl风格的正则表达式语法,与传统的常规正则表达式语法存在略微的差异。在使用过程中,可能需要根据实际需求进行一些调整和适配。 总之,通过LabVIEW的正则表达式匹配函数,我们可以实现对中文汉字的匹配和处理。 ### 回答3: 在LabVIEW中,可以使用正则表达式匹配中文汉字。 首先,在LabVIEW中,我们可以使用"正则表达式.vi"这个内置的函数来实现正则表达式匹配功能。这个函数可以根据输入的正则表达式模式,对一个字符串进行匹配操作。 接下来,如果我们想要匹配中文汉字,可以使用Unicode的特性来实现。每个中文汉字都对应一个Unicode码点,我们可以借助这个码点来进行匹配。 比如,要匹配一个字符串中的中文汉字,可以使用"\\p{Script=Han}"这个正则表达式模式。这个模式会匹配任意一个中文汉字。 在LabVIEW中,我们可以将这个正则表达式模式作为输入,传给"正则表达式.vi"这个函数,然后再将要匹配的字符串作为输入传给该函数。函数运行后,如果匹配成功,就可以得到匹配到的中文汉字。 需要注意的是,LabVIEW对正则表达式的支持相对较弱,可能不支持某些高级的正则表达式语法。如果遇到复杂的匹配需求,可能需要使用其他编程语言或工具来实现。 总之,LabVIEW中可以使用正则表达式匹配中文汉字,可以通过传递特定的正则表达式模式实现匹配操作,从而得到匹配到的中文汉字。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值