stanford添加自定义词典
下载 stanford-segmenter-2018-10-16
命令行 运行
java -mx1g -cp stanford-segmenter-3.9.2.jar edu.stanford.nlp.ie.crf.CRFClassifier -sighanCorporaDict data -loadClassifier data/ctb.gz -testFile preprocess-$1.txt -inputEncoding UTF-8 -sighanPostProcessing true -serDictionary data/dict-chris6.ser.gz,data/ntusd.txt -keepAllWhitespaces false >$1_seged.txt
其中 -testfile为待测文本preprocess.txt
data/ntusd.txt为自定义词典
输出seged.txt
测试发现,这个方法只能对部分词语起作用,“大 数据” 等都无法实现1+2合并。由于其方法基于CRF,不能进行强制边界分词。所以部分新词仍不起作用。