跨模态对齐和推理为 Multimodal RAG:多模态RAG 带来了独特的挑战:
- 提出了一个多模态RAG系统的通用框架;
- 并对多模态RAG系统进行了系统且全面的分析,涵盖了数据集、评估指标、基准测试、评估方法以及检索、融合、增强和生成方面的创新
*多模态检索增强生成(RAG)通用框架*,突出展示了每个阶段所采用的先进技术和方法。*查询预处理、多模态数据库、检索策略(*模态为中心*)、融合机制、增强技术、生成阶段、训练策略(*噪声管理技术*)*。
多模态RAG系统进行了系统且全面的分析:数据集、评估指标、基准测试、评估方法以及检索、融合、增强和生成方面的创新
1、检索策略(Retrieval Strategy)
检索策略是多模态RAG系统的核心部分,主要通过高效搜索和相似性检索来提升信息检索的准确性和效率。具体方法包括:
- 高效搜索和相似性检索:使用最大内积搜索(MIPS)及其变体,如TPU-KNN、Scalable Nearest Neighbors(ScaNN)等,通过近似最近邻搜索提高检索速度。
- 模态中心检索:根据模态特性优化检索效率,包括文本中心(如BM25、MiniLM)、视觉中心(如EchoSight、ImgRet)和视频中心(如iRAG、VideoRAG)的检索方法。
- 重排序和选择策略:通过优化示例选择、改进相关性评分和应用过滤机制来提高检索质量。例如,使用BERTScore、SSIM等多模态相似性度量进行重排序,以及通过硬负样本挖掘和共识过滤方法去除低质量数据。
2、融合机制(Fusion Mechanisms)
融合机制的目标是将来自不同模态的数据整合到统一的表示中,以支持跨模态推理。主要方法包括:
- 分数融合与对齐:通过将不同模态的数据转换为统一格式(如文本)或嵌入到共享语义空间中,实现模态间的对齐。例如,使用CLIP Score或BLIP特征融合来衡量图像和文本的相关性。
- 基于注意力的机制:动态加权跨模态交互,支持特定任务的推理。例如,双流共注意力机制(如RAMM)和基于用户注意力的特征融合(如RAGTrans)。
- 统一框架和投影:将多模态输入整合为连贯的表示。例如,通过层次化交叉链和晚期融合处理医疗数据(如IRAMIG),或通过将图像转换为文本描述以简化多模态输入(如SAM-RAG)。
3、增强技术(Augmentation Techniques)
增强技术通过优化检索到的文档,提升多模态RAG系统的性能。主要方法包括:
- 上下文丰富化:通过添加额外的上下文元素(如文本片段、图像标记或结构化数据)来增强检索到的知识,使其更适合生成任务。例如,通过实体检索和查询重构来优化视觉问答(如MiRAG)。
- 自适应和迭代检索:根据查询的复杂性动态调整检索过程。例如,通过多轮检索策略逐步细化检索结果(如OMG-QA),或通过反馈机制优化检索内容(如IRAMIG)。
4、生成方法(Generation Techniques)
生成方法关注于提升多模态RAG系统的输出质量和连贯性。主要创新包括:
- 上下文学习(In-Context Learning):利用检索到的内容作为少样本示例,增强模型的推理能力。例如,通过检索相关驾驶经验来优化生成(如RAG-Driver)。
- 推理(Reasoning):通过分解复杂推理任务为多个小步骤(如链式推理),提升生成内容的逻辑性和准确性。例如,通过多跳推理和证据整合来支持复杂问答(如RAGAR)。
- 指令调整(Instruction Tuning):针对特定任务调整生成模块,提升模型对指令的理解和执行能力。例如,通过指令调整优化医学图像报告生成(如FactMM-RAG)。
- 来源归因(Source Attribution):确保生成内容能够追溯到具体的来源,提升系统的透明度和可信度。例如,通过高亮显示支持证据的图像区域来归因(如VISA)。
5、训练策略(Training Strategies)
训练策略旨在优化多模态RAG系统的训练过程,提升模型的泛化能力和鲁棒性。主要方法包括:
- 对齐(Alignment):通过对比学习(如InfoNCE损失)优化多模态表示的对齐,确保正样本更接近、负样本更远离。
- 生成(Generation):使用交叉熵损失训练自回归语言模型,或通过生成对抗网络(GAN)和扩散模型优化图像生成。
- 鲁棒性增强(Robustness):通过注入噪声、使用硬负样本或知识蒸馏等方法,提升模型对噪声和错误数据的鲁棒性。例如,通过Query Dropout增强生成器性能(如RA-CM3)。
6、基准测试
7、数据集
8、应用场景
RAG领域首篇多模态RAG综述,过往的RAG相关综述是非多模态的
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generationhttps://arxiv.org/abs/2502.08826https://github.com/llm-lab-org/Multimodal-RAG-Survey
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。