本文是LLM系列文章,针对《VideoRAG: Retrieval-Augmented Generation over Video Corpus》的翻译。
摘要
检索增强生成(RAG)是一种强大的策略,通过检索与查询相关的外部知识并将其整合到生成过程中,来解决在基础模型中生成事实不正确输出的问题。然而,现有的RAG方法主要侧重于文本信息,最近的一些进展开始考虑图像,它们在很大程度上忽视了视频,视频是多模态知识的丰富来源,能够比任何其他模态更有效地表示事件、过程和上下文细节。虽然最近的一些研究探索了视频在响应生成过程中的集成,但它们要么预先定义查询相关的视频,而不根据查询检索它们,要么将视频转换为文本描述,而不利用其多模态丰富性。为了解决这些问题,我们引入了VideoRAG,这是一个新颖的框架,它不仅根据视频与查询的相关性动态检索相关视频,而且在输出生成中利用视频的视觉和文本信息。此外,为了实现这一点,我们的方法围绕着大型视频语言模型(LVLM)的最新进展,该模型能够直接处理视频内容以表示它,以便进行检索,并将检索到的视频与查询无缝集成。我们通过实验验证了VideoRAG的有效性,表明它优于相关基线。