导入nltk.book后,即可调用
(需要注意的是,每一次启动idle之后都需要import一次,因为import是导入进内存,具体还需要了解import的原理和机制,知识点:module)
1.searching text
//查找包含单词monstrous的上下文
text1.concordance("monstrous")
//查找上下文与monstrous相似的单词
text1.similar("monstrous")
//查找两个单词共同的上下文
text2.common_contexts(["monstrous", "very"])
//词在文本中的位置,需要安装NumPy的Matplotlib包
text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])
这里注意:nltk官网上NumPy目前最高版本1.11.2仅支持Python2.6-2.7,3.4-3.5 已哭瞎
然后试着用命令 py –m pip install NumPy安装成功NumPy-1.13.0py –m pip install matplotlib安装成功NumPy-1.13.0,此时会一起把cycler, python-dateutil, pyparsing, pytz, matplotlib一起下载安装搞定~
import numpy后执行代码,出现
//生成不同风格的随机文本
text3.generate()
2.counting vocabulary
//文本长度
len(text3)
//text3中的词类型 word types
set(text3)
//给text3中词类型排序,顺序,A-Z
sorted(set(text3))
//计算text3中词类型个数
len(set(text3))
//文本词汇丰富度
len(set(text3))/len(text3)
//单词计数
text3.count("smote")
//单词出现百分比
100 * text3.count("smote") / len(text3)
//使用def定义函数并调用
def lexical_diversity(text):
return len(set(text)) / len(text)
def percentage(count, total):
return 100 * count / total