NLTK扩展包指定读取路径方法

Leogee_

于 2024-07-19 17:29:01 发布

阅读量286

点赞数 4

文章标签： python nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75535440/article/details/140554811

版权

在使用NLTK库进行自然语言处理任务时，我们经常需要下载一些拓展包，例如：

>>>nltk.download("stopwords")

由于下载的网站是国外的网站，下载速度十分慢，或者下载的时候会卡死。
网上的大部分解决方案都是手动下载拓展包然后放在nltk的搜索路径中，这种方法的缺点是无法指定自定义路径，在某些场景中可能并不适用。

本文提供一种更灵活的方法，可以直接指定下载好的拓展包的路径。

具体步骤

1. 手动下载所需的拓展包
首先，访问NLTK的官方资源网站或镜像站点，手动下载所需的拓展包。例如，访问以下链接下载stopwords拓展包：nltk_data/packages/corpora/stopwords.zip at gh-pages · nltk/nltk_data · GitHub
2. 解压下载的拓展包
将下载的ZIP文件解压到你希望存放的路径。例如，可以解压到 /path/stopwords 。

3. 读取拓展包

from nltk.corpus.reader import WordListCorpusReader

stopwords=WordListCorpusReader(root="/path/stopwords", fileids="chinese")

root参数为前面解压后存放的路径。
fileids参数为读取的文件名称（中文就用"chinese"，英文用"english"）

chinese_stopwords =stopwords.words()

最后你就得到了停用词列表chinese_stopwords

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Leogee_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

1: 原创

203万+: 周排名

25万+: 总排名

285: 访问

: 等级

14: 积分

5: 粉丝

4: 获赞

0: 评论

2: 收藏

私信

关注

热门文章

NLTK扩展包指定读取路径方法 282

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。