NLTK是自然语言处理中常用的工具包
导入:
import nltk
nltk中的工具/模块/包不是事先安装好的,需要用到哪个就安装那个,安装方法:
nltk.download()
就打开了安装界面,在all packages中选择需要的包安装即可。
分词:
(下面以英文文本处理为例)
from nltk.tokenize import word_tokenize
from nltk.text import Text
input_str="Today's weather is good,very windy and sunny,we have no classes in the afternoon,we have to play basketball tomorrow"
# 需要先在nltk download安装alpino包
# 分词
tokens=word_tokenize(input_str)
将子串变为小写:
tokens=[word.lower() for word in tokens]
tokens[:5] # 输出前5个
创建text对象:
t=Text(tokens)
t.count('good') # 统计某个词出现的次数
t.index('good') # 索引
t.plot(8)
help(Text)
过滤停用词:
加载停用词典: