一种支持4种多模态RAG技术的引擎：VARAG

AIBigModel

于 2024-09-30 10:39:55 发布

阅读量356

点赞数 12

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/AIBigModel/article/details/142651625

版权

VARAG（视觉增强检索和生成）：是一种视觉优先的RAG引擎，强调基于视觉的检索技术。它通过视觉语言模型集成视觉和文本数据，增强了传统的检索增强生成 (RAG) 系统。

🚀 支持的检索技术

VARAG支持多种检索技术，针对不同用例进行了优化，包括文本、图像和多模式文档检索。以下是支持的主要技术：

简单RAG（带OCR）

简单 RAG（检索增强生成）是一种高效而直接的方法，用于从文档中提取文本并将其输入到检索管道中。VARAG通过Docling 整合了光学字符识别 (OCR)，从而可以处理和索引扫描的PDF或图像。

Docling在Markdown和JSON格式下的输出示例

VARAG提取和索引文本后，可以将查询与文档中的相关段落进行匹配，为生成基于提取信息的响应提供坚实的基础。此技术非常适合文本密集的文档，例如扫描的书籍、合同和研究论文，并且可以与大型语言模型 (LLM) 配对以生成上下文感知的输出。

Docling技术报告 https://arxiv.org/pdf/2408.09869https://github.com/DS4SD/docling

视觉RAG

Vision RAG 通过整合视觉信息检索来扩展传统的 RAG 技术，从而弥合文本和图像之间的差距。使用强大的跨模态嵌入模型（如 JinaCLIP（由 Jina AI 开发的 CLIP 的变体）），文本和图像都被编码到共享向量空间中。

jina-clip-v1的训练范式，共同优化文本-图像和文本-文本匹配

这允许跨不同模态进行相似性搜索，这意味着可以同时查询图像和文本。Vision RAG 特别适用于文档分析任务，其中视觉组件（例如，图形、图表、图像）与文本内容同样重要。它对于图像字幕或生成产品描述等任务也很有效，在这些任务中，理解和关联文本与视觉元素至关重要。

ColPali RAG

ColPali RAG代表了一种尖端方法，它通过直接将文档页面嵌入为图像而不是将其转换为文本来简化传统的检索流程。

该方法利用了Google团队的视觉语言模型 (VLM) PaliGemma，它将整个文档页面编码为矢量嵌入，将页面布局和视觉元素视为检索过程的一部分。ColPali RAG使用受ColBERT（Column BERT）启发的后期交互机制，通过启用用户查询和文档patches之间的token-level匹配来增强检索。这种方法确保了高检索准确性，同时还保持了合理的索引和查询速度。它对于富含视觉效果的文档特别有益，例如信息图表、表格和复杂布局，而传统的基于文本的检索方法很难处理这些文档。

ColPali论文: https://arxiv.org/abs/2407.01449ColPali博客: https://huggingface.co/blog/manu/colpaliColPali实战: https://github.com/weaviate/recipes/blob/main/weaviate-features/named-vectors/NamedVectors-ColPali-POC.ipynb

混合ColPali RAG

混合ColPali RAG 结合了图像嵌入和ColPali的后期交互机制的优势，进一步提高了检索性能。

系统首先使用图像嵌入（例如来自 JinaCLIP 等模型）执行粗略检索步骤，以检索前 k 个相关文档页面。
然后，在第二遍中，系统使用 ColPali 后期交互机制对这 k 个页面重新排序，以根据视觉和文本信息确定最终最相关的页面集。

当文档包含复杂的视觉效果和详细的文本时，这种混合方法特别有用，允许系统利用这两种内容类型进行高度准确的文档检索。

🚀 开始使用VARAG

每种视觉RAG技术都被构建为一个类，抽象所有组件并提供以下方法：

from varag.rag import {{RAGTechnique}}
ragTechnique = RAGTechnique()
ragTechnique.index(  "/path_to_data_source",  other_relevant_data)
results = ragTechnique.search("query", top_k=5)
# These results can be passed into the LLM / VLM of your choice

为什么要抽象这么多？

VARAG最初打算快速测试和评估不同的基于视觉的 RAG（检索增强生成）系统，以确定哪一个最适合我的用例，最终演化成了一个框架或库。

这种抽象旨在简化尝试不同 RAG 范例的过程，而不会使组件之间的兼容性复杂化。为了使事情变得简单，选择 LanceDB作为向量存储，因为它易于使用且可定制性高。

VARAG提供了4种视觉RAG技术的测试脚本，可以快速尝试与评测