2025顶会新热门：多模态对齐又“杀”疯了！

最新推荐文章于 2025-03-05 11:23:50 发布

Ai多利

最新推荐文章于 2025-03-05 11:23:50 发布

阅读量1.5k

点赞数 12

文章标签：人工智能多模态对齐

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_88556812/article/details/145052562

版权

2024深度学习发论文&模型涨点之——多模态对齐

多模态本质就是alignment（对齐），那么问题就在于如何做对齐。有用entity的，有用attention的，有用event做alignment，然后再做fusion（融合）。融合有多种方法，例如Linking、Grounding、Structure等。

多模态对齐通过整合不同模态的信息，使得模型能够从更全面的数据中学习，从而提高分类、回归等任务的性能。例如，在视频分类、事件检测、情感分析等跨媒体分析中，多模态融合技术能够提高模型的准确率。

我整理了一些多模态对齐【论文+代码】合集，需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1：

AlignRec: Aligning and Training in Multimodal Recommendations

AlignRec：多模态推荐中的对齐与训练

方法

推荐目标分解：将推荐目标分解为内容内对齐、内容与分类ID对齐以及用户与项对齐三个部分，每个部分都有特定的目标函数。

多模态特征预训练：首先预训练内容内对齐任务，以获得统一的多模态特征，然后使用这些特征作为输入，与后续两个对齐任务一起训练。

多模态编码器：使用基于注意力的跨模态编码器来对齐不同内容模态领域，输出单一项目的统一模态表示。

对齐目标函数：为每个对齐任务设计特定的目标函数，包括内容内对齐、内容-分类对齐和用户-项对齐。

创新点

系统性解决方案：首次提出AlignRec，系统性地分析并解决了多模态推荐中的对齐问题，该方法可以无缝集成到现有方法中。

预训练与联合训练策略：设计了先预训练内容对齐任务，然后根据推荐目标进一步训练对齐任务的训练策略，有效解决了内容模态和分类模态之间潜在的学习速度不一致问题。

中间评估协议：提供了三个新的中间评估协议来评估多模态特征的有效性，帮助选择更好的编码器，并加速推荐模型的迭代。

性能提升：在三个真实世界数据集上的广泛实验一致验证了AlignRec相比九个基线模型的优越性，性能提升包括在Recall@20指标上平均提升6.19%，在NDCG@20指标上平均提升4.88%。

论文2：

Deep Lucas-Kanade Homography for Multimodal Image Alignment

用于多模态图像对齐的深度Lucas-Kanade单应性

方法

深度Lucas-Kanade特征图（DLKFM）：构建了DLKFM，能够自动识别在各种外观变化条件下的不变特征。

亮度一致性：模板特征图与输入特征图保持亮度一致性，使得它们在对齐时颜色差异很小。

光滑景观目标函数：基于DLKFM的Lucas-Kanade目标函数在真实单应性参数周围具有平滑的景观，使得迭代解可以轻松收敛到真实值。

创新点

DLKFM的提出：提出了深度Lucas-Kanade特征图（DLKFM），能够自动识别多模态情况下的不变特征，提高了对齐的准确性。

亮度一致性与收敛性：设计了特殊的损失函数，使两个特征图满足亮度一致性，并帮助Lucas-Kanade算法通过塑造优化目标的景观来成功收敛。

多模态图像对齐：通过扩展传统的Lucas-Kanade方法到多模态图像对齐，提供了一种新的通用多模态图像对齐管道，显著提高了对齐精度。

论文3：

MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment

MM-Instruct：为大型多模态模型对齐生成的视觉指令

方法

自动化指令生成：利用ChatGPT从少量种子指令自动生成多样化的指令。

指令-图像匹配：使用预训练的CLIP模型将生成的指令与相关图像匹配。

指令遵循答案生成：利用强大的LLM生成与指令-图像对一致的答案。

数据过滤：通过一系列启发式规则过滤低质量实例，确保数据集的高质量。

创新点

指令数据生成：提出了一种新颖的方法来构建MM-Instruct，利用现有LLMs的指令遵循能力，从传统的图像描述数据集中生成新的视觉指令数据。

基准测试：引入了基于生成的指令数据的基准测试，以评估现有LMMs的指令遵循能力。

性能提升：通过在生成的数据上训练LLaVA-1.5模型（称为LLaVA-Instruct），展示了MM-Instruct数据集的有效性，该模型在指令遵循能力上相较于LLaVA-1.5模型有显著提升，根据GPT-4V的偏好判断，LLaVA-Instruct-7B在72%的情况下产生同等或更优的响应。

论文4：

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

Ovis：结构化嵌入对齐用于多模态大型语言模型

方法

结构化视觉嵌入表：引入一个额外的可学习视觉嵌入表，将连续的视觉标记转换为结构化的视觉嵌入。

概率化视觉标记：每个图像补丁通过多次索引视觉嵌入表，生成最终的视觉嵌入，这是索引嵌入的统计组合。

三阶段训练策略：Ovis通过三阶段训练策略进行优化，避免了因缺乏文本指导而在视觉-语言任务中表现不佳的风险。

创新点

结构化视觉表示：Ovis通过结构化的视觉表示，在各种多模态基准测试中显示出比类似参数规模的开源MLLMs更好的性能，甚至在总体上超过了专有模型Qwen-VL-Plus。

概率化视觉标记：通过概率化视觉标记，Ovis能够捕获单个视觉补丁中的丰富语义，这可能包含多个视觉词汇的模式。

跨模态性能提升：在7B和14B参数规模的模型中，Ovis在多个基准测试中均优于开源MLLMs，特别是在MMStar和MMMU基准测试中，Ovis-8B和Ovis-14B的性能提升显著。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。