PCFG模型训练
Java -Xmx7g edu.stanford.nlp.parser.lexparser.LexicalizedParser -tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams -train data/source/dataCTBZh//bracketed -saveToSerializedFile data/models/pcfgZH.ser.gz
其中:
-tLPP,用来选定训练树库的语言,中文选择edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams
说明:
输入的语料共1677971个句子,去重后词为67811
输入的文件格式为:
<DOC>
<DOCID>XIN.19960210.0178</DOCID>
<HEADER>
<DATE>1996-02-10</DATE>
</HEADER>
<BODY>
<HEADLINE>
<S ID=1>
( (IP-HLN (NP-SBJ (NP-PN (NR 上海)
(NR 浦东))
(NP (N