NLTK与StanfordNLP工具包结合使用

(一) 概述

1.NLTK

NLTK是一款著名的python自然语言处理工具包,其内收集了NLP领域大量的公开数据集以及常用模型,涵盖了分词,词性标注,命名实体识别,句法分析,依存分析等各种NLP领域的子任务。

2.Stanford NLP

Stanford NLP 是由斯坦福大学的NLP小组开源的用Java实现的NLP工具包,同样对 NLP 领域的各个问题提供了解决办法。相比NLTK,Stanford NLP提供了更多高质量的解决办法,因此我们希望能够在NLTK中使用它们。在 2004年Steve Bird在NLTK中加上了对Stanford NLP 工具包的支持,通过调用外部的jar文件来使用Stanford NLP工具包的功能。现在的NLTK中,通过封装提供了 Stanford NLP 中的以下几个功能:

  • 分词
  • 词性标注
  • 命名实体识别
  • 句法分析
  • 依存分析

(二) Standford NLP工具包配置

配置Standford NLP工具包需要提前安装好Java环境,Java环境的安装这里就不介绍了,可以自行百度,本文使用的是JDK1.8版本。本文配置的Standford NLP工具包都是3.9.2版本。

1.下载.jar包
  1. 分词压缩包:https://nlp.stanford.edu/software/segmenter.html
    点进链接后找到Download下的下载链接,获取stanford-segmenter-2018-10-16.zip,如下图:
    在这里插入图片描述
  2. 词性标注压缩包:https://nlp.stanford.edu/software/tagger.html
    点进链接后找到Download下的下载链接,获取stanford-postagger-full-2018-10-16.zip,如下图:
    在这里插入图片描述
  3. 命名实体识别压缩包:https://nlp.stanford.edu/software/CRF-NER.html
    点进链接后找到Download下的下载链接,获取stanford-ner-2018-10-16.zip,如下图:
    在这里插入图片描述
  4. 句法分析、依存分析压缩包:https://nlp.stanford.edu/software/lex-parser.html
    点进链接后找到Download下的下载链接,获取stanford-parser-full-2018-10-17.zip,如下图:
    在这里插入图片描述
2.配置环境变量

将上述下载的四个压缩包解压,将其中的部分文件添加到CLASSPATH环境变量下,部分文件添加到STANFORD_MODELS环境变量下(注:是CLASSPATH不是PATH,如果没有CLASSPATH环境变量就创建一个,STANFORD_MODELS需要自己创建):

  1. 分词:将stanford-segmenter-2018-10-16文件夹下的stanford-segmenter-3.9.2.jar重命名为stanford-segmenter.jar并添加到CLASSPATH环境变量下。
  2. 词性标注:将stanford-postagger-full-2018-10-16文件夹下的stanford-postagger.jar添加到CLASSPATH环境变量下,并将models文件夹添加到STANFORD_MODELS环境变量下。
  3. 命名实体识别:将stanford-ner-2018-10-16文件夹下的stanford-ner-3.9.2.jar添加到CLASSPATH环境变量下,并将classifiers文件夹添加到STANFORD_MODELS环境变量下。
  4. 句法分析、依存分析:将stanford-parser-full-2018-10-17文件夹下的stanford-parser.jar、stanford-parser-3.9.2-models.jar、slf4j-api.jar文件分别添加到CLASSPATH环境变量下。

(三) 基本使用介绍

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值