3.2.5 building machine learning system in python page 42


首先:要引入nltk 这是关于自然语言处理的工具包。简单介绍一下Ubuntu+python + nltk 的安装

         安装了pip, 在terminal 执行sudo pip install pyyaml nltk,一定要用sudo 否则权限不够,一些文件无法新建,会出现错误。例如下面的错误: 

         

        当屏幕上面出现

        

        表明已经安装成功。使用import nltk 如果没有报错就说明成功了。

        import nltk 

       nltk.download()

       

      选择all ,选择路径下载就可以,过程可能会比较长。

      

    当全部下载完成之后,关闭窗口,然后在terminal 中执行  from nltk.book import * ,然后出现下面的信息就说明你已经安装成功了。

    

   至此安装ntlk 完成。

然后编写有关词干处理的代码:

super() 函数

super(StemmedCountVectorizer,self)  ,首先找到StemmedCountVectorizer 的父类即CountVectorizer ,然后将类StemmedCountVectorizer的对象self转换为类CountVectorizer的对象,然后调用父类的函数



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值