真实关系的列表存在key中,预测关系的列表存在prediction中,从dev数据集中获取样本,以tacred为例,包含两万多条记录。以真实label存储,不是one-hot。
在该评价方法中,也有TP,FP,TN,FN的概念。回顾一下这四个变量代表什么意思:
- TP:将正类预测为正类的样本个数,预测对了关系的样本个数
- FN:将正类预测为负类的样本个数,实际有关系但没预测对
- FP:将负类预测为正类的样本个数,预测有关系但没预测对
- TN:将负类预测为负类的样本个数,预测没关系预测对了,不统计
positive就代表了实体之间存在关系的样本,negative则代表不存在关系的样本。
def score(key, prediction, verbose=False):
correct_by_relation = Counter()
guessed_by_relation = Counter()
gold_by_relation = Counter()
# Loop over the data to compute a score
for row in range(len(key)):
go

本文详细解读了关系抽取数据集的评价方法scorer.py,特别是针对TP、FP、FN和TN的概念。它计算精确率、召回率和F1-score,用于评估模型性能。scorer.py关注的是预测结果与实际标签一致的关系样本,不统计no_relation的情况,以防止数据偏斜导致的错误评估。
最低0.47元/天 解锁文章

2844

被折叠的 条评论
为什么被折叠?



