stanford parser使用

    stanford parser是一个可进行短语结构和依存结构分析的parser,网络上的资料很多,而且在stanford nlp的网站上也有很多说明,代码中的readme文件数的也很详细。在这里简要记录一下我学习的一些过程。

    stanford parser的源代码下载后可直接使用,不需要做任何修改。训练语料默认是英文的wsj语料。在使用中文训练时需要在参数中指定:

  • 训练:使用中文训练时命令为
nohup java -server -mx2000m -cp "stanford-parser.jar" edu.stanford.nlp.parser.lexparser.LexicalizedParser \
-evals "factDA,tsv" \
-tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams \
-chinesePCFG -encoding UTF-8 -maxLength 200 -saveToSerializedFile chinesePCFG.ser.gz  \
-train ./corpus/ctb5/train.pid > trainPCFG.log 2>&1 &
其中一定要加 edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams否则无法使用中文训练,我在刚开始使用的时候没有注意,总是出现
Extracting PCFG...Exception in thread "main" java.lang.RuntimeException:
> TreeAnnotator: null head found for tree [suggesting incomplete/wrong 

    在网上查了一些资料,有相同的问题但是没有回答,最后给stanford的人员发信询问,才知道问题所在。

     在训练的时候,可以选择是使用PCFG还是Factored,有很多参数可选择,具体看readme文件。

    使用上面的训练命令后得到一个.gz文件。接下来可进行测试。

  • 测试:

  nohup java -server -mx1800m -cp "stanford-parser.jar" \
 edu.stanford.nlp.parser.lexparser.LexicalizedParser \
 -evals "factDA,tsv" -maxLength 200 \
 -loadFromSerializedFile chinesePCFG.ser.gz -test ./corpus/ctb5/test.pid > ./test.result &
测试的输出可以有很多种,具体见参数。使用上面的命令,最后可以得到测试结果。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值