TL;博士
要下载特定的数据集/模型,请使用nltk.download()函数,例如,如果要下载punkt语句标记器,请使用:$ python3
>>> import nltk
>>> nltk.download('punkt')
如果您不确定所需的数据/模型,可以从数据+模型的基本列表开始:>>> import nltk
>>> nltk.download('popular')
它将下载“热门”资源列表,其中包括:
编辑$ rm /Users//nltk_data/corpora/panlex_lite.zip
$ rm -r /Users//nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')
更新>>> from nltk import word_tokenize
>>> word_tokeniz