简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
一、NLTK 的安装
如果是python 2.x 的环境,安装命令如下:
sudo pip install nltk
如果是python 3.x 的环境,安装命令如下:
sudo pip3 install nltk
成功地执行了上述命令后,NLTK 的安装还没有彻底地完成,还需要在 python 中执行如下的代码:
import nltk
nltk.download()
代码执行后,会弹出如下的界面:
NLTKInstall.png
点击 “all” 这一行,然后点击 “Download” 按钮进行下载。“Download Directory” 一开始可以先随便设置,但文件夹的名字必须是 nltk_data,下载完成后可以先执行一段分词的代码(随后将会提到这段代码),代码会报错,错误提示说找不到相应的资源文件,并在这段错误提示中告诉我们应该把刚才下载下来的资源放到哪里。你可能会疑惑:为什么不在下载之前将 “Download Directory” 设置正确呢?这是因为我们一开始也不知道正确的 “Download Directory” 是什么,所以先随便设置了一个,然后通过错误提示再将下载好的资源放到正确的路径下面。
资源下载过程中可能会多次出现下载异常的情况,每次遇到这种情况后,关掉正在执行的代码,然后重新执行代码进行下载即可。
二、分词
1、分词方式
分词使