本文是LLM系列文章,针对《Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs》的翻译。
摘要
问答的归因是为支持生成的陈述提供引文,引起了广泛的研究关注。目前自动评估归因的方法通常基于大型语言模型(LLM),但仍然不足,特别是在识别归因之间的细微差异以及引用和陈述之间的复杂关系方面。为了比较这些归因评估方法并开发新的方法,我们引入了一组细粒度的类别(即支持性、不充分性、矛盾性和无关性)来衡量归因,并通过利用知识图谱(KGs)自动生成不同类别对问答对的归因,开发了一个复杂归因问答(CAQA)基准。我们的分析表明,现有的评估者在细粒度的归因设置下表现不佳,在复杂的引文陈述推理中表现出弱点。我们的CAQA基准,经过人工注释验证,成为选择和开发LLM归因评估者的一个很有前途的工具。