正则表达式在NLP中的基本应用

正则表达式在NLP中的作用

1.将非结构化文档转化为结构化文本

2.去噪

 

 

#在python中使用re模块来实现正则表达式
import re
"""text_string='组合范畴语法(Combinatory categorial grammar,),是在AB演算基础上进行扩展而产生的范畴语法。' \
            '从语法理论视角看,CCG是一种词汇形式化的方法。从计算语言学视角看,CCG属于一类适度上下文相关文法。' \
            '从逻辑语义学视角看,CCG在句法与语义的接口方面非常融洽。无论是CCG语言的、计算的,还是逻辑的特征,' \
            '都使得 CCG非常适用于自然语言信息处理,对于计算语言学具有很好的理论和实际价值。'
#regex='CCG'     匹配含有CCG的句子
#regex='C..'     匹配含有C..的句子,'.'可表示任意字符
#regex='..G'     同上
#regex='^从'     匹配以从开始的句子
#regex='从$'     匹配以从结尾的句子
regex='^从[语逻]'   #匹配以 '从语'和'从逻'开始的句子  []表示后边可以匹配多个字符
p_string=text_string.split('。')
for line in p_string:
    if re.search(regex,line)is not None:
        print(line)"""


#关于转义字符'/'的匹配
"""if re.search(r"\\","I love N\LP"):
    print("YES")
else :
    print("NO")"""

#关于抽取特殊数字或者字符
years_string='2016 was good,but 2017 will be better!'
year=re.findall('[2][0-9][0-9][0-9]',years_string) #字符[a-z]同理
print(year)

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值