无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」...

OPERA是一种基于注意力惩罚与回退策略的解码方法,旨在缓解多模态大模型的幻觉问题。通过识别和惩罚“过度信赖”现象,并采用“回退-再分配”策略,OPERA能有效减少模型在生成回答时的错误和不准确性。在InstructBLIP、MiniGPT-4等多个模型上,OPERA表现出优越的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

e2ce2ed2c5519b7ebfb3b205f3eba947.gif

©PaperWeekly 原创 · 作者 | 黄启栋

单位 | 中科大+上海AI Lab

研究方向 | 多模态大模型

fae43b339f2fcafc99b9bcc7d6bcd462.png

3e7d201f347ce7079754233deb68bbff.png

介绍

幻觉(Hallucination)作为多模态大模型的一个非常严重的问题,一直受到广泛的关注。具体来说,大多数多模态大模型(MLLMs)有时会对用户提供的图像和提示给出错误的回答,例如说出与图像无关或荒谬的事物,识别出与图像上物体的颜色、数量和位置不符的对象。这种现象在多模态大模型生成较长回答时尤其常见。 

为了缓解多模态大模型的幻觉问题,许多工作提出了不同类型的方法。他们有的构造额外的训练数据,有的求助于外部知识与模型作为辅助,但是都引入了大量的额外开销。那么有没有一种方法可以在不需要额外的知识与训练的情况下,就可以无痛缓解多模态大模型幻觉这一个“老大难”问题呢? 

答案是肯定的。为此,中科大和上海 AI Lab 的研究者们最近提出了一种基于注意力惩罚与回退策略的解码方法 OPERA,有效缓解多模态大模型幻觉!

ad1c86ff0a80239c038eca83e45e7c54.png

论文题目:

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospect

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值