NLP learn practice(一)

最新推荐文章于 2020-10-28 17:59:33 发布

「已注销」

最新推荐文章于 2020-10-28 17:59:33 发布

阅读量334

点赞数 1

分类专栏： ML_DL_NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WQ963369/article/details/79361157

版权

ML_DL_NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

NLP learn practice(一)

在自然语言处理领域，NLTK是以一个非常有名的自然语言处理工具包，因此，作为自然语言处理的研究者，这个工具的掌握是很有必要的。

首先，先介绍下NLTK这个工具包，NLTK全名Nature Language Toolkit,它是由宾夕法尼亚大学计算机和信息科学系开发。这个工具包有下面几个特点：

１．它自带语料库，语料库这个不用多说，是最重要的数据来源，就类似于机器学习中的数据一样。

２．自带词性分类器。

３．自带分类，分词等功能，当然还有很多机器学习算法，类似于sklearn。

当然，它还有强大的社区支持，而且尤其在国外，它是NLP领域的一个常用库，尤其做英文的处理。在中文中也有相应的工具包jieba。

下面来介绍它的安装：

这里环境是ubuntu 16.04版本，由于目前在机器学习领域，部分的研究成果都是基于linux环境下的，windows可能运行不了，因此在这里采用linux环境。

在终端里输入sudo pip install nltk，便可完成安装，然后进入python环境,输入import nltk，如果没有出现异常，此时便安装成功了。接下来安装语料库，在python终端输入nltk.download()，有如下显示：

download相应的语料库即可，不仅可以下载语料，还可以下载所需要的模型。

接下来对自带的语料库进行测试，在这里以著名的brown语料库为例：

可以看到这个语料库一共有１５类的语料，包括adventure、fiction、government、learned...，包括57340个句子和1161192个词。

对于文本处理而言，它的过程描述如下图所示：

在这里，先把一个文本进行切分，先分成句，利用nltk.tokenize中的sent_tokenize()方法便可完成，如下所示：

可以看到，在文本text按句进行了划分，在这里需要注意在每句话开始时，前面是需要有空格的，不然会和第一次的切分结果一样，把整篇文本当做一个句子，就不是所要的结果了。

然后再把每一个句子切分成词，可以根据nltk中的word_tokenize()来完成这项任务，例子如下：

其实分词的方法有很多，比如根据正则表达式切分等等，再具体用到时，查询便可。接下来进行特征工程，特征工程是机器学习领域非常重要的一步，也是最耗时的一步，即使是深度学习，提前做特征工程也大有益处。做完这一步，便可以通过机器学习的方法进行模型训练，得到模型后，进而部署模型到应用系统，整个工程就完成了。

本文描述文本处理的大体思路以及nltk的简单实用，详细介绍会在以后加以详谈。

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP learn practice(一)

NLP learn practice(一) 在自然语言处理领域，NLTK是以一个非常有名的自然语言处理工具包，因此，作为自然语言处理的研究者，这个工具的掌握是很有必要的。首先，先介绍下NLTK这个工具包，NLTK全名Nature Language Toolkit,它是由宾夕法尼亚大学计算机和信息科学系开发。这个工具包有下面几个特点： ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。