E5-V:具有多模态大型语言模型的通用嵌入

文章提出了一个新框架E5-V,用于实现通用多模态嵌入。与传统方法相比,E5-V通过多模态大语言模型(MLLMs),结合提示机制,将不同模态的信息投射到同一嵌入空间中。该方法采用单模态文本训练,大幅减少训练成本,同时表现出优越的多模态嵌入性能。在实验中,E5-V在文本-图像检索、图像组合检索等任务中超过了现有方法。此外,E5-V能够有效处理未见任务提示,展现了强大的零样本推理能力,为通用多模态嵌入模型的设计提供了新思路。

在这里插入图片描述

1 E5-V框架

· 多模态嵌入统一:

利用多模态大语言模型(MLLMs)通过提示机制,将不同模态(如图像和文本)的信息投射到同一嵌入空间中。

·使用特定格式的提示(如“总结上述内容为一个词”),消除不同模态之间的嵌入差距。

· 单模态训练策略:

·通过仅使用文本对进行对比学习训练,而非传统的多模态数据(如图文对)。

·移除训练过程中对视觉编码器和多模态投影器的依赖,从而简化训练流程并大幅降低训练成本。

· 基于提示的表征方法:

·设计特定的提示模板,用于明确指示模型如何提取和压缩多模态输入的语义信息。

·例如,图像或文本的语义内容通过提示压缩为单一嵌入表示。

· 嵌入生成流程:

·文本或图像输入通过提示映射到相应的嵌入向量空间。

·模型内部仅保留大语言模型部分作为核心&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值