GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models

UnknownBody

于 2024-04-12 11:30:17 发布

阅读量178

点赞数

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/137674300

版权

LLM Evaluation 同时被 3 个专栏收录

83 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

LLM for NLP

31 篇文章

订阅专栏

随着大型语言模型在关系提取（GRE）中的应用，传统评估指标面临挑战。GENRES提出多维度评估GRE，揭示精确度/召回率的局限性，发现人类注释可能不完整及LLM的幻觉现象。经过人类评估，GENRES与人类偏好一致，为14个领先LLM的GRE评估提供基础，预示NLP领域变革。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models》的翻译。

摘要

关系提取（RE）领域正经历着向生成关系提取（GRE）的显著转变，利用了大型语言模型（LLM）的功能。然而，我们发现传统的关系提取（RE）指标，如精确度和召回率，在评估GRE方法方面存在不足。出现这种不足是因为这些指标依赖于与人类注释的参考关系的精确匹配，而GRE方法通常会产生不同于参考的多样且语义准确的关系。为了填补这一空白，我们引入GENRES，对GRE结果的主题相似性、唯一性、粒度、真实性和完整性进行多维评估。对于GENRES，我们从经验上发现：（1）精确度/召回率无法证明GRE方法的性能；（2）人类注释的指称关系可能是不完整的；（3）提示具有一组固定关系或实体的LLM可能会导致幻觉。接下来，我们对GRE方法进行了人类评估，结果表明GENRES与人类对RE质量的偏好一致。最后，我们分别在文档、包和句子级别的RE数据集中使用GENRES对14个领先的LLM进行了全面评估，为GRE的未来研究奠定了基础。