一、nltk库
nltk是一个python工具包, 用来处理与自然语言相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类等,是较为好用的现成工具。但是目前该工具包的分词模块,只支持英文分词,而不支持中文分词。
1.安装nltk库
在命令行输入:
conda install nltk #anaconda环境
pip install nltk #纯python环境
进入对应的环境中,输入如下:
import nltk
nltk.download()
运行后,弹出NLTK Downloader窗口,自定义安装内容 (博主选择all ,即全部安装,大概3.2G左右) ,安装成功如下图所示: