参考:
https://github.com/facebookresearch/ImageBind
ImageBind learns a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data
ImageBind 多个模态共享同一个空间Embedding,这样可以通过一个模态检索相似其他模态,相比CLIP文本图像两个模态,向外扩展了很多
代码测试
1、这边windows上测试的,由于audio相关库没装好,所以只测试了文本与图形相关模态的相似度召回计算;使用尽量还是linux机器