安装和使用nltk

最新推荐文章于 2025-03-31 23:51:26 发布

MasonYyp

最新推荐文章于 2025-03-31 23:51:26 发布

阅读量4.2k

点赞数 4

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/make_progress/article/details/116941669

版权

机器学习专栏收录该内容

33 篇文章

订阅专栏

1 安装nltk

# 我安装的nltk=3.6.2，不同的版本可能会有变化
pip install nltk

# 如果安装比较慢，使用国内镜像源
pip install nltk -i http://pypi.doubanio.com/simple/

# 豆瓣镜像源
http://pypi.doubanio.com/simple/

# 可以在地址栏直接输入查找的包，离线下载，例如：下载tensorflow
http://pypi.doubanio.com/simple/tensorflow

2 离线安装数据集

在下载受到网络和网速的限制，无法在线安装。

（1）下载nltk_data包

github下载地址：https://github.com/nltk/nltk_data/tree/gh-pages

解压后，将nltk_data中的package重命名为nltk_data，nltk_data数据组成文件如下：

chunkers grammars misc sentiment taggers corpora help models stemmers tokenizers

如果提示有punkt错误，进入tokenizers目录下的nltk_data文件，解压punkt.zip文件即可，如果没有punkt.zip可以下载文件。

（2）查看nltk_data放置在搜索出的目录

# 查看可以放置数据的目录
print(nltk.data.find("."))
# 将nltk_data文件复制到上述的任何一个目录下即可
# 再次强调：此处nltk_data不是直接下载的文件，是下载的文件中的package重命名为nltk_data

3 简单测试

import nltk
sentence = "At eight o'clock on Thursday morning, Arthur didn't feel very good."

# 将文本拆分成句子列表
sens = nltk.sent_tokenize(sentence)
print(sens)

# 对文本分词
tokens = nltk.word_tokenize(sentence)
print(tokens)

# 对文本标注
tagged = nltk.pos_tag(tokens)
print(tagged)

博客等级

码龄8年

262
原创

567
点赞

1661
收藏

288
粉丝

关注

私信

热门文章

分类专栏

大模型 1篇
python 16篇
JavaEE 26篇
前端 28篇
微服务 28篇
go 4篇
Hadoop 6篇
Vue 5篇
Android 19篇
Linux服务器 43篇
机器学习 33篇

展开全部收起

上一篇：: python操作文件

下一篇：: 基于spaCy实现pytextrank对英文短语抽取

最新评论

Python简单使用MinerU
yskany: 那些依赖包都没有，博主能详细一点吗？
Docker安装hoppscotch
weixin_39417183: 大佬，一直在报错Error: Error: auth/provider_not_configured_correctly 2025-05-14 10:34:59 Backend Server | at throwErr (/dist/backend/dist/utils.js:26:11) 2025-05-14 10:34:59 Backend Server | at InfraConfigService.initializeInfraConfigTable (/dist/backend/dist/infra-config/infra-config.service.js:98:38) 2025-05-14 10:34:59 Backend Server | at async InfraConfigService.onModuleInit (/dist/backend/dist/infra-config/infra-config.service.js:54:9)是什么问题呢
Python简单使用MinerU
蓝色的山竹: 直接用程序访问API可以吗？就不用前面那么复杂的下载model了
Python简单使用MinerU
林语微光: 不用申请，可以直接用的
Python简单使用MinerU
凤栖之木: 想问一下这个API怎么申请

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。