多模态大语言模型的免训练视觉提示学习 ControlMLLM

Phoenixtree_DongZhao

已于 2024-08-07 15:17:25 修改

阅读量1.5k

点赞数 25

分类专栏： Large Model Transformer Multi-modal 文章标签：深度学习大模型语言模型计算机视觉

于 2024-08-07 15:16:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014546828/article/details/140992585

版权

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models

在本研究中，提出了一种无需进行训练的方法，通过可学习的潜变量优化将视觉提示注入到多模态大型语言模型（MLLMs）中。

在MLLMs核心模块中，注意力连接文本提示标记和视觉标记，并最终确定输出结果起着重要作用。

提出的方法涉及在推理过程中调整与视觉标记相关联部分的MLP输出，以控制注意力响应并确保文本提示标记关注指定区域内的视觉标记。

通过基于能量函数优化一个可学习的潜变量，增强了注意图对指定区域描述和推理任务的能力，而无需进行大规模训练或重新训练模型。

因此，本文提供了一种有希望将引用能力集成到MLLMs中，并支持使用框、蒙版、涂鸦和点等方式进行引用的方法。

动机

要解决的问题

传统MLLMs的局限性：
- 粗粒度图像对齐：传统多模态大语言模型ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。