©PaperWeekly 原创 · 作者 | 黄启栋
单位 | 中科大+上海AI Lab
研究方向 | 多模态大模型
介绍
幻觉(Hallucination)作为多模态大模型的一个非常严重的问题,一直受到广泛的关注。具体来说,大多数多模态大模型(MLLMs)有时会对用户提供的图像和提示给出错误的回答,例如说出与图像无关或荒谬的事物,识别出与图像上物体的颜色、数量和位置不符的对象。这种现象在多模态大模型生成较长回答时尤其常见。
为了缓解多模态大模型的幻觉问题,许多工作提出了不同类型的方法。他们有的构造额外的训练数据,有的求助于外部知识与模型作为辅助,但是都引入了大量的额外开销。那么有没有一种方法可以在不需要额外的知识与训练的情况下,就可以无痛缓解多模态大模型幻觉这一个“老大难”问题呢?
答案是肯定的。为此,中科大和上海 AI Lab 的研究者们最近提出了一种基于注意力惩罚与回退策略的解码方法 OPERA,有效缓解多模态大模型幻觉!
论文题目:
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospect