本文是LLM系列文章,针对《TruthX: Alleviating Hallucinations by Editing Large Language Models
in Truthful Space》的翻译。
摘要
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,他们有时会产生幻觉,尤其是在拥有正确知识的情况下,他们可能会产生不真实的反应。在本文中,我们提出了TruthX,这是一种推理时间方法,通过编辑LLM在真实空间中的内部表示来引出LLM的真实性。TruthX使用自动编码器将LLM的表示分别映射到语义和真实潜在空间,并应用对比学习来识别真实空间内的真实编辑方向。在推理过程中,TruthX通过编辑LLM在真实空间中的内部表示,有效地增强了LLM的真实性。实验表明,在TruthfulQA基准上,TruthX有效地将13个高级LLM的真实性提高了平均20%。进一步的分析表明,TruthX获得的真实空间在控制LLM产生真实或幻觉反应方面发挥着关键作用。