集7大模态（视频、图片、音频、文本、深度图、热力图、惯性）的IMAGEBIND

watersink

于 2023-05-10 16:38:18 发布

阅读量1.3k

点赞数 1

分类专栏：多模态文章标签：人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_14845119/article/details/130604333

版权

多模态专栏收录该内容

3 篇文章

订阅专栏

论文：IMAGEBIND: One Embedding Space To Bind Them All

GitHub：https://github.com/facebookresearch/ImageBind

Meta AI 提出了 ImageBind，它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集，相反利用到了图像的绑定属性，只要将每个模态的嵌入与图像嵌入对齐，就会实现所有模态的迅速对齐。

论文以视觉语言模型clip作为基础，以图片/视频为核心中点，将其他domain的embedding都和图片/视频的embedding对齐。最终得到一个集7大模态（视频、图片、音频、文本、深度图、热力图、惯性）的深度学习模型IMAGEBIND。

有别于先前的模型，本文的IMAGEBIND模型也可以zero-shot迁移到多个其他domain。

在训练上，IMAGEBIND不需要严格一一配对的7个domain的数据，只需要将其他domain的数据都向image/video对齐就可以。通过这样的训练方式，即使没有进行过（声音，文本）的专门训练，也可以取得SOAT的（声音，文本）分类能力。

理想情况下，一个有着不同种类数据的联合嵌入空间能让模型在学习视觉特征的同时学习其他的模态。此前，往往需要收集所有可能的配对数据组合，才能让所有模态学习联合嵌入空间。

ImageBind 规避了这个难题，它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态，它们与图像的自然配对，如视频 - 音频和图像 - 深度数据，来学习一个联合嵌入空间。针对其他四种模式（音频、深度、热成像和 IMU 读数），研究者使用自然配对的自监督数据。

I表示图片，M表示其他domain的文件，f，g两个函数都表示将原始数据编码为统一的embedding。

损失函数为InfoNCE loss。

T为temperature，用于控制交叉熵的平滑程度。

左后算loss的时候和clip一样，也是对称的交叉熵。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。