要下载特定的数据集/模型,请使用nltk.download()函数,例如如果您要下载punkt句子标记生成器,请使用:
$python3
>>> import nltk
>>> nltk.download('punkt')
如果您不确定需要哪种数据/模型,可以从基本的数据模型列表开始:
>>> import nltk
>>> nltk.download('popular')
它将下载“热门”资源列表.
确保您拥有最新版本的NLTK,因为它始终在不断改进并不断维护:
$pip install --upgrade nltk
EDITED
如果有人避免从nltk下载更大的数据集时出错,从https://stackoverflow.com/a/38135306/610569开始
$rm /Users//nltk_data/corpora/panlex_lite.zip
$rm -r /Users//nltk_data/corpora/panlex_lite
$python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')
如果有人想找到nltk_data目录,请参阅https://stackoverflow.com/a/36383314/610569
要配置nltk_data路径,请参阅https://stackoverflow.com/a/22987374/610569