1. nltk内置分词器
导入模块
from nltk.tokenize import LineTkoenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize
首先生成对象,然后调用tokenize方法
LTokenize=LineTokenizer()#按行分词
out=Ltokenize.tokenize('my word sssss')
out=word_tokenize('my word sssss')
2. 词干提取
词干为没有前后缀的词的主体;
在处理一些任务如搜索问题等时,需要去除文本格式,只对词干进行处理
导入模块,生成对象
from nltk import PorterStemmer,LancasterStemmer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
porter=PorterStemmer()
out = [poter.stem(t) for t in token]
print(out)
PorterStemmer倾向于较少的去除后缀,LancasterStemmer倾向于较多的去除后缀
3. 词形还原
词元(Lemma):一个词的中心词,与词干提取不同,词元通过字典匹配得到
词形还原(lemmatization):是一个字典映射过程
使用WordNetLemmatizer函数完成
from nltk import WordNetLemmatizer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
lemmatizer=WordNetLemmatizer()
out=[lemmatizer(t) for t in token]
print(out)
和词干提取相比,词形还原错误更少,表现更优。
4. 停用词
停用词是指具有极少语义价值,但具有极高语法价值的词,如the, '.'等。
import nltk
from nltk.corpus import gutenberg
gb_words=gutenberg.words('austen-emma.txt')
word_filtered=[e for e in gb_words if len(e)>3]
stopwords=nltk.corpus.stopwords.words('english')
words=[e for e in word_filtered if e not in stopwords]
fdist=nltk.FreqDist(words)
print(fdist.most_common(10))
在进行复杂文本分析之前,必须进行停用词处理