GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models

516 篇文章 3 订阅

已下架不支持订阅

31 篇文章 0 订阅
随着大型语言模型在关系提取(GRE)中的应用,传统评估指标面临挑战。GENRES提出多维度评估GRE,揭示精确度/召回率的局限性,发现人类注释可能不完整及LLM的幻觉现象。经过人类评估,GENRES与人类偏好一致,为14个领先LLM的GRE评估提供基础,预示NLP领域变革。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models》的翻译。

GENRES:对大语言模型时代生成关系提取评价的再思考

摘要

关系提取(RE)领域正经历着向生成关系提取(GRE)的显著转变,利用了大型语言模型(LLM)的功能。然而,我们发现传统的关系提取(RE)指标,如精确度和召回率,在评估GRE方法方面存在不足。出现这种不足是因为这些指标依赖于与人类注释的参考关系的精确匹配,而GRE方法通常会产生不同于参考的多样且语义准确的关系。为了填补这一空白,我们引入GENRES,对GRE结果的主题相似性、唯一性、粒度、真实性和完整性进行多维评估。对于GENRES,我们从经验上发现:(1)精确度/召回率无法证明GRE方法的性能;(2) 人类注释的指称关系可能是不完整的;(3) 提示具有一组固定关系或实体的LLM可能会导致幻觉。接下来,我们对GRE方法进行了人类评估,结果表明GENRES与人类对RE质量的偏好一致。最后,我们分别在文档、包和句子级别的RE数据集中使用GENRES对14个领先的LLM进行了全面评估,为GRE的未来研究奠定了基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值