首先:要引入nltk 这是关于自然语言处理的工具包。简单介绍一下Ubuntu+python + nltk 的安装
安装了pip, 在terminal 执行sudo pip install pyyaml nltk,一定要用sudo 否则权限不够,一些文件无法新建,会出现错误。例如下面的错误:
当屏幕上面出现
表明已经安装成功。使用import nltk 如果没有报错就说明成功了。
import nltk
nltk.download()
选择all ,选择路径下载就可以,过程可能会比较长。
当全部下载完成之后,关闭窗口,然后在terminal 中执行 from nltk.book import * ,然后出现下面的信息就说明你已经安装成功了。
至此安装ntlk 完成。
然后编写有关词干处理的代码:
super() 函数
super(StemmedCountVectorizer,self) ,首先找到StemmedCountVectorizer 的父类即CountVectorizer ,然后将类StemmedCountVectorizer的对象self转换为类CountVectorizer的对象,然后调用父类的函数