当我们进行文本处理时,常常需要对文本进行分词处理,但是中文与英文的处理方式确实不一样的:英文主要利用空格进行单词或者句子划分,所以使用的是NLTK分词方法;而中文比英文复杂,需要进行预处理等操作,使用的是jieba分词方法。
文章目录
1、NLTK库安装
方法一:
打开Anaconda目录下的Spyder,输入以下代码直接进行下载:
import nltk
nltk.download()
随后会跳出来以下界面,下载地址记得更改为Anaconda文件夹下的lib文件夹,下列图中的包最好都下载,因为不是很大,但后续工作可能会需要。但是该方法速度特别慢,有的时候直接怀疑是卡掉了,所以建议使用方法二。
方法二:
利用网盘资源下载nltk库到Anaconda所在文件夹lib(位置放错了在使用nltk时就会出现错误),解压所有的文件夹,即可使用。网盘资源地址如下: