多模态RAG中的图文Embedding模型及8个图文对数据集

最新推荐文章于 2025-04-26 18:57:33 发布

大靠山

最新推荐文章于 2025-04-26 18:57:33 发布

阅读量1.8k

点赞数 22

文章标签： embedding 人工智能深度学习机器学习 prompt 数据库

本文链接：https://blog.csdn.net/m0_59235245/article/details/144835007

版权

今天我们来回顾下多模态RAG中的embedding，看有哪些主流的开源模型，然后顺便看看图文对数据集，这个在进行多模态RAG的embedding训练时会用到。

一、从多模态RAG看图文embedding

先回顾下典型多模态RAG的实现流程，这个文章(https://blog.csdn.net/Jina_AI/article/details/143454780)举的例子特别好，在这里欧下：

拿到这两个embedding，可以玩出三种花样，分别是text2text embedding(使用文本查询向量搜索描述的文本向量)，text2image embedding(使用文本查询向量搜索图片的图像向量)，text2 average embedding(使用文本查询向量搜索文本和图像混合向量)；

其做的实验，如下：结论也很有趣，混合向量检索评分最高，结合了文本和图像信息的优势。

所以，其中一个重要的点，就是怎么拿到这些更好的embdding，下面看几个。

1、CLIP及OpenCLIP

CLIP是OpenAI提出的一个多模态模型，支持ViT-B/32 和ViT-B/16等底层架构。

OpenCLIP（开源版本）由LAION团队推出，完全开源的 CLIP 替代版本，支持更大的模型（如 ViT-L/14、H/14 等）以及优化架构。其中对应的视觉编码模型是核心。

但是，CLIP主要在短文本描述上进行训练，最长也就77 token，在在文本和文本之间的语义对比上也有不足，缺乏对语义细粒度的理解能力。

地址：https://arxiv.org/abs/2103.00020，https://github.com/openai/CLIP，https://github.com/mlfoundations/open_clip

2、jina-clip

所以，后续有了几个优化的思路。

v2版本支持89种语言的图像检索，能够处理512x512分辨率的图像，提供从64到1024不同维度的输出，以适应不同的存储和处理需求。文本编码器Jina-XLM-RoBERTa和视觉编码器EVA02-L14，通过联合训练创建了对齐的图像和文本表示。

其中，中文image-text-pairs，包括来自LAION-5B 中文子集、Wukong 的中文数据、以及来自COCO、Visual Genome 的翻译图文数据等。

地址：https://arxiv.org/abs/2405.20204，https://huggingface.co/jinaai/jina-clip-v1,https://huggingface.co/jinaai/jina-clip-v2

3、Chinese-CLIP

原始的CLIP模型基于英文图文语料，不能用于中文的图文表征提取场景。Chinese-CLIP以英文CLIP视觉侧参数和中文Roberta参数，作为模型初始化值。基于大规模原生中文图文数据，实现了CLIP模型的中文化版本

地址：https://arxiv.org/abs/2211.01335,https://github.com/OFA-Sys/Chinese-CLIP，https://huggingface.co/OFA-Sys/chinese-clip-vit-base-patch16，https://modelscope.cn/models/AI-ModelScope/chinese-clip-vit-base-patch16

二、8个多模态图文对中文数据集总结

这块主要参考自https://tianchi.aliyun.com/dataset/145784

1、MUGE：https://tianchi.aliyun.com/muge，https://github.com/MUGE-2021，https://arxiv.org/abs/2103.00823

2、Noah-Wukong：https://wukong-dataset.github.io/wukong-dataset/，https://arxiv.org/pdf/2202.06767.pdf

3、Zero：https://github.com/yuxie11/R2D2，https://arxiv.org/abs/2205.03860

4、WuDaoCorpora-WuDaoMM：https://data.wudaoai.cn/home，https://github.com/BAAI-WuDao/WuDaoMM/，https://arxiv.org/pdf/2203.11480v1.pdf

5、COCO-CN：https://github.com/li-xirong/coco-cn， https://arxiv.org/pdf/1805.08661.pdf

6、Flick8k-CN & Flick30k-CN：https://github.com/weiyuk/fluent-cap，https://arxiv.org/pdf/1708.04390.pdf

7、Product1M：https://github.com/zhanxlin/Product1M，https://arxiv.org/abs/2107.14572

8、AIChallenger：https://tianchi.aliyun.com/dataset/145781，https://arxiv.org/pdf/1711.06475.pdf

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述