分词效果测试:fnlp-demo/src/main/java/org.fnlp.demo.nlp/ChineseWordSegmentation.java
msr:
pku:
cityu:
词性标注测试:fnlp-demo/src/main/java/org.fnlp.demo.nlp/PartsOfSpeechTag.java
发现出现明显词性标注错误,如部分标点符号错标为名词,动词,例如:
词 长/动词 了/时态词 草似的/名词 ,/名词 焦虑/名词 ,/标点 急躁/副词 ,/动词 要/情态词 使/动词 自己/人称代词 冷静/动词 下来/趋向词 ,/动词 镇定/动词 下来/趋向词 ,/标点 学会/动词 主宰/动词 自己/人称代词 ,/动词 变/动词 外部/名词 控制/动词 为/介词 内部/名词 控制/动词 。/标点
依存句法分析测试:fnlp-demo/src/main/java/org.fnlp.demo.nlp/DepParser.java
0 他 人称代词 4 主语
1 其实 副词 4 状语
2 没 副词 4 状语
3 那么 副词 4 状语
4 喜欢 动词 -1 核心词
5 你 人称代词 4 宾语
他 其实 没 那么 喜欢 你
人称代词 副词 副词 副词 动词 人称代词
4 4 4 4 -1 4
依存句法分析代码如下:
private static void test(String word) throws Exception {
POSTagger tag = new POSTagger("../models/seg.m","../models/pos.m");
String[][] s = tag.tag2Array(word);
try {
DependencyTree tree = parser.parse2T(s[0],s[1]);
System.out.println(tree.toString());
String stree = parser.parse2String(s[0],s[1],true);
System.out.println(stree);
} catch (Exception e) {
e.printStackTrace();
}
}
首先,需要对其进行分词和词性处理,
论文给出的系统性能评测结果:
参考论文:
FudanNLP: A Toolkit for Chinese Natural Language Processing