正则 不能有中文逗号_NLP利剑篇之正则表达式

16aca1c3e11f24063c7fd32ff7ad796f.png

正则表达式是可以进行文本匹配、索搜、替换的规则。 在处理NLP任务时,正则表达式往往表现得准确、快速、高效、灵活。
但是正则虽好,切不可贪用哦,滥用正则甚至会出现让内存溢出导致整个服务器瘫痪的情况。在实际应用中,如果有很复杂的正则要求,而你又不是很熟悉,可以借助代码逻辑,将正则拆分成多个简单正则。
不同的程序语言所支持的正则所有不同(有些正则功能不支持等),具体应用时根据所使用的编程语言视情况而定。
废话不多说,让我们从具体例子中学习正则吧(有道云版本更佳)。

测试文本:这是一段测试文本,里面包含了数字0-9,字母a-z,中文,邮编210000等等

  • 入门级
    • 匹配单个字符
    • 重复匹配
    • 匹配多个字符
    • 匹配元字符
  • 普通级
    • 位置匹配
    • 贪婪与非贪婪匹配
    • 分组与捕获

熟练级

    • 回溯引用
    • 前后查找
    • 条件匹配

入门级

匹配单个字符

空格匹配

s

换行符匹配

n

tab键匹配

t

任意字符匹配(可能不包含换行符)

.

单个数字匹配

d 或者 [0-9]

单个字母匹配

[a-zA-Z]

单个中文匹配

[u4e00-u9fa5]

重复匹配

import 

匹配多个字符

# 匹配9或a

匹配元字符

# 匹配字符串'd'

普通级

位置匹配

# 匹配开头

贪婪与非贪婪匹配

# 匹配‘这是...文’

分组与捕获

# #分组与捕获

熟练级

回溯引用

# 回溯引用

前后查找

# 匹配0,且0后面得是3个数字

条件匹配

# 匹配字符‘文’,如果‘文’子前面有测试,则多匹配任意一个字符
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值