1.下载相关数据集,下载地址:http://www.nltk.org/nltk_data/
比如:
①需要分词、分句,则下载punkt
②需要词性标注、NER,则下载averaged_perceptron_tagger
2.下载好的数据集解压放在nltk_data相应任务的文件夹下面,否则会找不到该数据集。
(nltk_data的目录结构见:https://www.cnblogs.com/webRobot/p/6065831.html)
比如:
①punkt用于分词、分句,则放在tokenizers路径下:/xxx/.../nltk_data/tokenizers/punkt
②averaged_perceptron_tagger用于标注,则放在taggers路径下:/xxx/.../nltk_data/taggers/averaged_perceptron_tagger
3.nltk文档:http://www.nltk.org/index.html#