无痛缓解多模态大模型幻觉！基于注意力惩罚与回退机制的解码方法「OPERA」...

最新推荐文章于 2025-05-07 10:39:57 发布

PaperWeekly

最新推荐文章于 2025-05-07 10:39:57 发布

阅读量1k

点赞数 23

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134903207

版权

OPERA是一种基于注意力惩罚与回退策略的解码方法，旨在缓解多模态大模型的幻觉问题。研究发现，模型在生成幻觉内容时存在“过度信赖”现象，OPERA通过引入惩罚项和回退机制，有效减少了幻觉现象的发生，提高了生成内容的准确性。这种方法已在多个多模态大模型上展现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 黄启栋

单位 | 中科大+上海AI Lab

研究方向 | 多模态大模型

介绍

幻觉（Hallucination）作为多模态大模型的一个非常严重的问题，一直受到广泛的关注。具体来说，大多数多模态大模型（MLLMs）有时会对用户提供的图像和提示给出错误的回答，例如说出与图像无关或荒谬的事物，识别出与图像上物体的颜色、数量和位置不符的对象。这种现象在多模态大模型生成较长回答时尤其常见。

为了缓解多模态大模型的幻觉问题，许多工作提出了不同类型的方法。他们有的构造额外的训练数据，有的求助于外部知识与模型作为辅助，但是都引入了大量的额外开销。那么有没有一种方法可以在不需要额外的知识与训练的情况下，就可以无痛缓解多模态大模型幻觉这一个“老大难”问题呢？

答案是肯定的。为此，中科大和上海 AI Lab 的研究者们最近提出了一种基于注意力惩罚与回退策略的解码方法 OPERA，有效缓解多模态大模型幻觉！

论文题目：

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models vi

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。