二叉parsing树

本文旨在介绍对文本进行成分句法分析, 得到适合递归神经网络的二叉句法树的过程.这是我第一篇论文的baseline中的一个模型,对如何得到二叉句法树纠结了好久,好吧,自己效率有点低.
首先,在网上搜了搜,知道做parsing可以用nltk自带的几种工具,如递归下降句法器,移动归约句法器,chart句法器等.但是需要自己定义上下文无关的文法,自己尝试了定义,但是数据集中的一些句子并不适用,即找不到符合自定义文法的句法树.自己笨的要手工标注,但明显不现实,几乎要放弃这个baseline了.所以总结经验教训:千万不要尝试手工标注,要么用程序解决,要么放弃.
另外一种经常用的就是stanford parser.由于斯坦福nlp团队是用java开发的parser,我目前用的都是python,所以搜索了如何在python中使用stanford parser 的办法.可以用nltk这个第三方工具.nltk也是斯坦福大学出来的,但是不知道和CoreNLP有什么联系.

1 通过nltk,使得在python中可以使用stanford parser

现在就一步步介绍怎么用nltk在python中使用stanfor parser!

确保安装了JDK8或者JRE1.8及以上版本。
首先从http://nlp.stanford.edu/software/lex-parser.shtml#Download下载stanford parser version 3.6.0,
将stanford-parser.jar和stanford-parser-3.6.0-models.jar解压到指定位置,思聪本上是C:\Users\wy\jars
将stanford-parser-3.6.0-models.jar中的\edu\stanford\nlp\models\lexparser\中的englishPCFG.er.gz解压到指定位置,这里是C:\Users\wy\jars\englishPCFG

import os
from nltk.parse import stanford
os.environ['STANFORD_PARSER'] = 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值