NLP learn practice(一)

NLP learn practice(一)
                

        在自然语言处理领域,NLTK是以一个非常有名的自然语言处理工具包,因此,作为自然语言处理的研究者,这个工具的掌握是很有必要的。

        首先,先介绍下NLTK这个工具包,NLTK全名Nature Language Toolkit,它是由宾夕法尼亚大学计算机和信息科学系开发。这个工具包有下面几个特点:

        1.它自带语料库,语料库这个不用多说,是最重要的数据来源,就类似于机器学习中的数据一样。

        2.自带词性分类器。

        3.自带分类,分词等功能,当然还有很多机器学习算法,类似于sklearn。

当然,它还有强大的社区支持,而且尤其在国外,它是NLP领域的一个常用库,尤其做英文的处理。在中文中也有相应的工具包jieba。

        下面来介绍它的安装:

        这里环境是ubuntu 16.04版本,由于目前在机器学习领域,部分的研究成果都是基于linux环境下的,windows可能运行不了,因此在这里采用linux环境。

        在终端里输入sudo pip install nltk,便可完成安装,然后进入python环境,输入import nltk,如果没有出现异常,此时便安装成功了。接下来安装语料库,在python终端输入nltk.download(),有如下显示:

            

download相应的语料库即可,不仅可以下载语料,还可以下载所需要的模型。

接下来对自带的语料库进行测试,在这里以著名的brown语料库为例:


可以看到这个语料库一共有15类的语料,包括adventure、fiction、government、learned...,包括57340个句子和1161192个词。

对于文本处理而言,它的过程描述如下图所示:

        

在这里,先把一个文本进行切分,先分成句,利用nltk.tokenize中的sent_tokenize()方法便可完成,如下所示:

可以看到,在文本text按句进行了划分,在这里需要注意在每句话开始时,前面是需要有空格的,不然会和第一次的切分结果一样,把整篇文本当做一个句子,就不是所要的结果了。

然后再把每一个句子切分成词,可以根据nltk中的word_tokenize()来完成这项任务,例子如下:

其实分词的方法有很多,比如根据正则表达式切分等等,再具体用到时,查询便可。接下来进行特征工程,特征工程是机器学习领域非常重要的一步,也是最耗时的一步,即使是深度学习,提前做特征工程也大有益处。做完这一步,便可以通过机器学习的方法进行模型训练,得到模型后,进而部署模型到应用系统,整个工程就完成了。

本文描述文本处理的大体思路以及nltk的简单实用,详细介绍会在以后加以详谈。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值