stanford parser是一个可进行短语结构和依存结构分析的parser,网络上的资料很多,而且在stanford nlp的网站上也有很多说明,代码中的readme文件数的也很详细。在这里简要记录一下我学习的一些过程。
stanford parser的源代码下载后可直接使用,不需要做任何修改。训练语料默认是英文的wsj语料。在使用中文训练时需要在参数中指定:
- 训练:使用中文训练时命令为
nohup java -server -mx2000m -cp "stanford-parser.jar" edu.stanford.nlp.parser.lexparser.LexicalizedParser \
-evals "factDA,tsv" \
-tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams \
-chinesePCFG -encoding UTF-8 -maxLength 200 -saveToSerializedFile chinesePCFG.ser.gz \
-train ./corpus/ctb5/train.pid > trainPCFG.log 2>&1 &
其中一定要加
edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams,
否则无法使用中文训练,我在刚开始使用的时候没有注意,总是出现
Extracting PCFG...Exception in thread "main" java.lang.RuntimeException:
> TreeAnnotator: null head found for tree [suggesting incomplete/wrong
在网上查了一些资料,有相同的问题但是没有回答,最后给stanford的人员发信询问,才知道问题所在。
在训练的时候,可以选择是使用PCFG还是Factored,有很多参数可选择,具体看readme文件。
使用上面的训练命令后得到一个.gz文件。接下来可进行测试。
- 测试:
nohup java -server -mx1800m -cp "stanford-parser.jar" \
edu.stanford.nlp.parser.lexparser.LexicalizedParser \
-evals "factDA,tsv" -maxLength 200 \
-loadFromSerializedFile chinesePCFG.ser.gz -test ./corpus/ctb5/test.pid > ./test.result &
测试的输出可以有很多种,具体见参数。使用上面的命令,最后可以得到测试结果。