nltk环境安装
1.pip或者conda安装nltk之后,在python环境中导入nltk没报错就说明安装OK。
2.安装nltk依赖的数据
nltk有一些自带的数据,比如语料,多种语言的停用词等等,这些数据都需要单独安装。
安装nltk需要的一些数据,理论上是可以通过
nltk.download()
或者下载某一个数据,比如punkt: nltk.download(punkt)
,但是这些命令我都无法正常运行,会提示网络无法连接,可能是我的网络不能翻墙?只能通过离线下载数据然后放在指定的目录下来解决。
-
如果没有依赖的数据,再用某些包的时候会出现以下问题。
-
离线下载nltk数据
GitHub网址: https://github.com/nltk/nltk_data
gitee网址: nltk_data: NLTK Data - Gitee.com
数据资源在以上两个网站中,GitHub下载会很慢,gitee上会快很多。
资源中的packages目录是我们需要的数据,下载到本地之后,解压放在上个截图有关路径下的任何一个就可以,这里我自己选择在我自己的虚拟环境tensorflow_env下,将下载好的包里面的packages目录复制一份到tensorflow_env目录下,并将packages重命名为nltk_data。
重命名后文件如下:
如果文件夹下有压缩文件,都需要解压出来,这样导入才不会报错。
查看nltk_data文件目录
nltk.data.find(".")