一、初识NLTK库
NLTK是一个比较优秀的自然语言处理工具包,是我们聊天机器人需要工作中较为重要的
1. NLTK库安装
Step 1: pip安装
pip install nltk
Step 2:执行python并下载书籍
import nltk
nltk.download()
Step 3:选择book后点Download开始下载
- 选择book,然后点Download开始下载
Step 4:下载完成后
加载全部书籍,并显示其中一本书的标题
from nltk.book import *
print('--', text1)
2. 搜索文本
Step 1:显示25个包含“great”的语句上下文
text1.concordance("great")
Step 2: 搜索相关词
text1.similar("ship")
输入了ship,查找了boat,都是近义词
Step 3:查看某个词在文章里出现的位置
text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])
3.词统计
- len(text1):返回总字数
- set(text1):返回文本的所有词集合
- len(set(text4)):返回文本总词数
- text4.count(“is”):返回“is”这个词出现的总次数
- FreqDist(text1):统计文章的词频并按从大到小排序存到一个列表里
- fdist1 = FreqDist(text1);fdist1.plot(50, cumulative=True):统计词频,并输出累计图像(纵轴表示累加了横轴里的词之后总词数是多少)
- fdist1.hapaxes():返回只出现一次的词
- text4.collocations():频繁的双联词
参考资料来源:http://www.shareditor.com/