- 提取字符块
re.findall()方法,找出所有(无重叠的)匹配的指定正则表达式。例如找出一个词中的所有原因,并计数
word = "aairoweotiqkttms.ajkostalrtsetayk"
re.findall(r'aeiou',word)
- 查找词干
re.findall(r'^.(*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$',word)
但时存在很多问题,不仅会将“ponds”的s删除,也会将”basis”的”is删除”。
3.搜索已分词文本
使用一种特殊的正则表达式搜索一个文本中的多个词。例如:
搜索文本中所有“a man“的实例
lgy = nltk.Text(nltk.corpus.brown.words())
lgy.findall(r"<as><.*><as><.*>")
用来查找“as x as y”的brown文本库中实例