本文部分翻译自文章Dependency parsing外加个人批注以及关于如何在Python中具体实现的小笔记.
Kübler, Sandra, Ryan McDonald, and Joakim Nivre. “Dependency parsing.” Synthesis Lectures on Human Language Technologies 1.1 (2009): 1-127.
评估dependency parser以及其他类型的parser标准化的做法是把他们应用到一个treebank的测试集上,然后比较parser的输出和treebank给出的标注(gold standard annotation found in the treebank). (我读下来觉得这句话是废话 ?)最为常用的评估方法有以下几种:
- Exact match 精准匹配: 计算的是完全正确parse的句子所占总句子的比例. (个人觉得这个算下来都不会高,整个句子全都分对对算法来说略显困难;并且大多数情况下我们还是比较关心单个component的parse性能,所以这个我觉得基本不太可能会用到.)
- Attachment score: 这个主要用在dependency parser上,constituent parser不能直接使用.它计算的是拥有正确的head的单词占总单词的比例.它以来的是dependency trees的single-head property. Attachment score又有以下两种
- Labeled Attachment score(LAS)
- Unlabeled Attachment score(UAS)