无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」...

OPERA是一种基于注意力惩罚与回退策略的解码方法,旨在缓解多模态大模型的幻觉问题。研究发现,模型在生成幻觉内容时存在“过度信赖”现象,OPERA通过引入惩罚项和回退机制,有效减少了幻觉现象的发生,提高了生成内容的准确性。这种方法已在多个多模态大模型上展现出优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

4674357379476faecea5b99da6ff27f4.gif

©PaperWeekly 原创 · 作者 | 黄启栋

单位 | 中科大+上海AI Lab

研究方向 | 多模态大模型

19d0490a477414f8df2550f619d1c1ba.png

a5b8d145a089f2ce9611ce70eebbd060.png

介绍

幻觉(Hallucination)作为多模态大模型的一个非常严重的问题,一直受到广泛的关注。具体来说,大多数多模态大模型(MLLMs)有时会对用户提供的图像和提示给出错误的回答,例如说出与图像无关或荒谬的事物,识别出与图像上物体的颜色、数量和位置不符的对象。这种现象在多模态大模型生成较长回答时尤其常见。 

为了缓解多模态大模型的幻觉问题,许多工作提出了不同类型的方法。他们有的构造额外的训练数据,有的求助于外部知识与模型作为辅助,但是都引入了大量的额外开销。那么有没有一种方法可以在不需要额外的知识与训练的情况下,就可以无痛缓解多模态大模型幻觉这一个“老大难”问题呢? 

答案是肯定的。为此,中科大和上海 AI Lab 的研究者们最近提出了一种基于注意力惩罚与回退策略的解码方法 OPERA,有效缓解多模态大模型幻觉!

b6ee512d43d6bfae5d6a3bdf4260fa89.png

论文题目:

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models vi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值