本文提出了一种名为自适应多模态检索增强生成(SAM-RAG)的新框架,旨在解决传统检索增强生成(RAG)方法在处理复杂多模态任务时的局限性。SAM-RAG能够根据查询动态筛选相关的文本和图像,并通过多阶段验证机制评估检索结果和生成的回答,确保其相关性、准确性和支持性。实验结果表明,SAM-RAG在多模态检索和生成任务中显著优于现有的最先进方法,尤其在减少错误信息(如幻觉现象)方面表现出色。
1 SAM-RAG框架
以下是SAM-RAG框架的一些主要模块的介绍:
· 模态对齐:
·将图像等非文本模态转换为文本表示,以便与文本数据进行统一处理。首先通过GPT生成原始的图片标题(不特定于查询),用于检索和相似度计算,然后对这些文本化的图像和原始文本文档进行嵌入和向量化。
· 文档检索:
·对于给定的查询,使用DPR(Dense Passage Retrieval)模型计算文档库中各文档的相似度,并按相似度对文档排序,以便进行下一步的相关性验证。
· 相关性验证(isRel):
·对检索到的文档进行批量处理,评估每个文档是否与查询相关。对于文本文档,直接评估文本内容的相关性;对于图像文档,生成基于查询的标题并评估其相关性。如果文档被判定为相关,则保留用于生成答案。
· 回答生成:
·利用通过相关性验证的上下文信息生成初步答案。该生成过程采用自回归方式,逐步生成答案文本。
· 回答验证:
·框架对生成的答案进行多阶段验证:1. isUse:检查生成的答案是否准确回答了问题。2. isSup:验证生成的答案是否得到检索到的上下文支持。如果答案不被支持,系统会重新检索更多相关文档并生成新的答案。3. isSup Partial:如果答案部分得到支持,系统会继续保留当前上下文,并进一步检索补充信息。
2 结语
本文提出了一种新的方法,即自适应多模态检索增强生成(SAM-RAG),通过动态筛选相关文档和验证生成结果,显著提升多模态任务中的检索准确性和生成质量。
论文题目: Self-adaptive Multimodal Retrieval-Augmented Generation
论文链接: https://arxiv.org/abs/2410.11321v1
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!