正则表达式的有益应用(未完待续)

  1. 提取字符块
    re.findall()方法,找出所有(无重叠的)匹配的指定正则表达式。例如找出一个词中的所有原因,并计数
word = "aairoweotiqkttms.ajkostalrtsetayk"
re.findall(r'aeiou',word)
  1. 查找词干
re.findall(r'^.(*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$',word)

但时存在很多问题,不仅会将“ponds”的s删除,也会将”basis”的”is删除”。

3.搜索已分词文本
使用一种特殊的正则表达式搜索一个文本中的多个词。例如:
搜索文本中所有“a man“的实例
lgy = nltk.Text(nltk.corpus.brown.words())
lgy.findall(r"<as><.*><as><.*>")

用来查找“as x as y”的brown文本库中实例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值