OpenNLP使用小结

6 篇文章 0 订阅
 
OpenNLP使用小结

我刚刚开始接触NLP,最近使用了一下开源工具包OpenNLP。它包含sentence detector, parts-of-speech (POS) tagger和treebank parser。本文主要对我这段时间来使用OpenNLP的一些经验技巧做一下小结。

OpenNLP能做什么?

以下面一段句子为例,我们来看看OpenNLP到底可以做一些什么工作:    This isn't the greatest example sentence in the world because I've seen better.  Neither is this one.  This one's not bad, though.

  • Sentence Detector 
    简单直观的理解就是提取句子。但是可能没有我们想象的那么简单,因为有些句子不是以句号结尾,尤其对一些对话文本可能会更加复杂。幸运的是OpenNLP为我们提供了一个提取句子结构的模块。Sentence Detector是所有其他操作的一个先行步骤,因为其他操作一次只能处理一个sentence。 
    Sentence Detector返回String数组,在这里,返回的第一个数组如下: 
    This isn't the greatest example sentence in the world because I've seen better.

  • Tokenizer 
    POS tagger和Treebank parser都需要将句子分解成tokens。通常一个单词是一个token,但是,有些单词需要分解成两个tokens。例如,"don't"分解成"do"和"n't"这两个tokens。下面是一个句子的分解: 
    This is n't the greatest example sentence in the world because I 've seen better .

  • POS Tagger 
    就是对句子进行语法结构分析,将每个token对应一个speech tags (verb, adverb, personal pronoun)。下面是tagging的结果: 
    This/DT is/VBZ n't/RB the/DT greatest/JJS example/NN sentence/NN in/IN the/DT world/NN because/IN I/PRP 've/VBP seen/VBN better/RB ./.
    可以参考这篇文章理解POS。

  • Treebank Chunker 
    将句子分块chunking。名词phrase和动词phrase可以被正确的标记。在我们的例子中,我们可以得到如下的chunks: 
    [NP This/DT ] [VP is/VBZ ] n't/RB [NP the/DT greatest/JJS example/NN sentence/NN ] [PP in/IN ] [NP the/DT world/NN ] [SBAR because/IN ] [NP I/PRP ] [VP 've/VBP seen/VBN ] [ADVP better/RB ] ./.

  • Treebank Parser 
    构建语法结构树

http://www.numb3r3.com/opennlp-tutorial

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值