分词
先将文档读入,然后全部变为小写
txt=open("English.txt","r").read()
txt = txt.lower()#将英文全部变为小写
中文分词需要专门的方法:
英文分词就可以直接使用word_tokenize()进行分词
text="This is a text for test.And I want to learn how to use nltk."
words = nltk.word_tokenize(text) #分词
分词后词干提取或词形归一
Stemming词干提取
把不影响词性的inflection的词缀砍掉
例如 :walking 砍掉ing=>walk
有三种方式,
LancasterStemmer()和PorterStemmer(),SnowballStemmer(),比较常用的是 Porter 提取算法。
- Lancaster算法
from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer=LancasterStemmer()
print(lancaster_stemmer.stem('maximum'))
print(lancaster_stemmer.stem('multiply'))
- Porter提取算法
from