stanford parser使用

最新推荐文章于 2021-02-27 01:51:10 发布

zldeng_scir

最新推荐文章于 2021-02-27 01:51:10 发布

阅读量5.8k

点赞数 2

分类专栏：机器学习笔记文章标签：测试 java thread tree null 网络

本文链接：https://blog.csdn.net/dengzhilong_cpp/article/details/7804042

版权

机器学习笔记专栏收录该内容

13 篇文章 1 订阅

订阅专栏

stanford parser是一个可进行短语结构和依存结构分析的parser，网络上的资料很多，而且在stanford nlp的网站上也有很多说明，代码中的readme文件数的也很详细。在这里简要记录一下我学习的一些过程。

stanford parser的源代码下载后可直接使用，不需要做任何修改。训练语料默认是英文的wsj语料。在使用中文训练时需要在参数中指定：

训练：使用中文训练时命令为

nohup java -server -mx2000m -cp "stanford-parser.jar" edu.stanford.nlp.parser.lexparser.LexicalizedParser \
-evals "factDA,tsv" \
-tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams \
-chinesePCFG -encoding UTF-8 -maxLength 200 -saveToSerializedFile chinesePCFG.ser.gz  \
-train ./corpus/ctb5/train.pid > trainPCFG.log 2>&1 &

其中一定要加 edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams，否则无法使用中文训练，我在刚开始使用的时候没有注意，总是出现

Extracting PCFG...Exception in thread "main" java.lang.RuntimeException:
> TreeAnnotator: null head found for tree [suggesting incomplete/wrong

在网上查了一些资料，有相同的问题但是没有回答，最后给stanford的人员发信询问，才知道问题所在。

在训练的时候，可以选择是使用PCFG还是Factored，有很多参数可选择，具体看readme文件。

使用上面的训练命令后得到一个.gz文件。接下来可进行测试。

测试：

  nohup java -server -mx1800m -cp "stanford-parser.jar" \
 edu.stanford.nlp.parser.lexparser.LexicalizedParser \
 -evals "factDA,tsv" -maxLength 200 \
 -loadFromSerializedFile chinesePCFG.ser.gz -test ./corpus/ctb5/test.pid > ./test.result &

测试的输出可以有很多种，具体见参数。使用上面的命令，最后可以得到测试结果。

zldeng_scir

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
stanford parser使用

stanford parser是一个可进行短语结构和依存结构分析的parser，网络上的资料很多，而且在stanford nlp的网站上也有很多说明，代码中的readme文件数的也很详细。在这里简要记录一下我学习的一些过程。 stanford parser的源代码下载后可直接使用，不需要做任何修改。训练语料默认是英文的wsj语料。在使用中文训练时需要在参数中指定：训练：使用中文训
复制链接

扫一扫