一、简介
本篇博文主要介绍共指消解任务中常用的评价指标:MUC,B3,CEAF,以及BLANC。在实际应用中,通过采用上述评价指标的多种的平均值作为最终的评估指标。
二、MUC
MUC score计算了将预测的共指链映射到标注的共指链所需插入或者删除的最少的链接数量。其缺陷在于无法衡量系统预测单例实体(singleton entity)的性能。
三、B3
B3算法可以克服MUC的缺点,因为该算法主要是对每个mention来分别计算precision和recall,然后以所有mention的平均值作为最终的指标。
对于单个mention,计算方式如下所示:
其中,R代表算法预测的共指链,而K则代表数据集标注的共指链。
计算样例:
四、CEAF
CEAF是一种基于实体相似度的评估算法。对于实