NAACL 2024:https://arxiv.org/abs/2310.14564https://arxiv.org/abs/2310.14564
1.概述
LLMs在各类自然语言生成任务中展现出非凡能力,但“幻觉”问题依然是其不容忽视的短板,具体表现为生成非事实性或误导性内容。针对当前主流LLMs进行的人类评估结果显示,GPT-3.5在Wikipedia等熟悉领域生成的事实性输出比例亦不足25%,其他模型表现更为逊色。这一发现再次强调了“幻觉”问题的严峻性,并强调了开发高效事实验证策略的重要性。