奋战聊天机器人（一）初识NLTK库

最新推荐文章于 2024-07-30 20:23:04 发布

钟shi杰

最新推荐文章于 2024-07-30 20:23:04 发布

阅读量771

点赞数

分类专栏：自然语言文章标签： python 机器人聊天自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zsj470785068/article/details/77698774

版权

自然语言专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、初识NLTK库

NLTK是一个比较优秀的自然语言处理工具包，是我们聊天机器人需要工作中较为重要的

1. NLTK库安装

Step 1: pip安装

pip install nltk

Step 2：执行python并下载书籍

import nltk
nltk.download()

Step 3：选择book后点Download开始下载

选择book,然后点Download开始下载

Step 4：下载完成后

加载全部书籍，并显示其中一本书的标题

from nltk.book import *
print('--', text1)

2. 搜索文本

Step 1：显示25个包含“great”的语句上下文

text1.concordance("great")

Step 2：搜索相关词

text1.similar("ship")

输入了ship，查找了boat，都是近义词

Step 3：查看某个词在文章里出现的位置

text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])

3.词统计

len(text1)：返回总字数
set(text1)：返回文本的所有词集合
len(set(text4))：返回文本总词数
text4.count(“is”)：返回“is”这个词出现的总次数
FreqDist(text1)：统计文章的词频并按从大到小排序存到一个列表里
fdist1 = FreqDist(text1);fdist1.plot(50, cumulative=True)：统计词频，并输出累计图像（纵轴表示累加了横轴里的词之后总词数是多少）
fdist1.hapaxes()：返回只出现一次的词
text4.collocations()：频繁的双联词

参考资料来源：http://www.shareditor.com/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。