一种支持4种多模态RAG技术的引擎：VARAG

最新推荐文章于 2024-09-30 14:16:32 发布

程序员笑武

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量870

点赞数 10

文章标签：人工智能低代码 embedding 知识图谱 chatgpt

本文链接：https://blog.csdn.net/m0_59164304/article/details/142642417

版权

VARAG（视觉增强检索和生成）：是一种视觉优先的RAG引擎，强调基于视觉的检索技术。它通过视觉语言模型集成视觉和文本数据，增强了传统的检索增强生成 (RAG) 系统。

🚀 支持的检索技术

VARAG支持多种检索技术，针对不同用例进行了优化，包括文本、图像和多模式文档检索。以下是支持的主要技术：

简单RAG（带OCR）

简单 RAG（检索增强生成）是一种高效而直接的方法，用于从文档中提取文本并将其输入到检索管道中。VARAG通过Docling 整合了光学字符识别 (OCR)，从而可以处理和索引扫描的PDF或图像。

Docling在Markdown和JSON格式下的输出示例

VARAG提取和索引文本后，可以将查询与文档中的相关段落进行匹配，为生成基于提取信息的响应提供坚实的基础。此技术非常适合文本密集的文档，例如扫描的书籍、合同和研究论文，并且可以与大型语言模型 (LLM) 配对以生成上下文感知的输出。

Docling技术报告 https://arxiv.org/pdf/2408.09869``https://github.com/DS4SD/docling

视觉RAG

Vision RAG 通过整合视觉信息检索来扩展传统的 RAG 技术，从而弥合文本和图像之间的差距。使用强大的跨模态嵌入模型（如 JinaCLIP（由 Jina AI 开发的 CLIP 的变体）），文本和图像都被编码到共享向量空间中。

jina-clip-v1的训练范式，共同优化文本-图像和文本-文本匹配

这允许跨不同模态进行相似性搜索，这意味着可以同时查询图像和文本。Vision RAG 特别适用于文档分析任务，其中视觉组件（例如，图形、图表、图像）与文本内容同样重要。它对于图像字幕或生成产品描述等任务也很有效，在这些任务中，理解和关联文本与视觉元素至关重要。

ColPali RAG

ColPali RAG代表了一种尖端方法，它通过直接将文档页面嵌入为图像而不是将其转换为文本来简化传统的检索流程。

该方法利用了Google团队的视觉语言模型 (VLM) PaliGemma，它将整个文档页面编码为矢量嵌入，将页面布局和视觉元素视为检索过程的一部分。ColPali RAG使用受ColBERT（Column BERT）启发的后期交互机制，通过启用用户查询和文档patches之间的token-level匹配来增强检索。这种方法确保了高检索准确性，同时还保持了合理的索引和查询速度。它对于富含视觉效果的文档特别有益，例如信息图表、表格和复杂布局，而传统的基于文本的检索方法很难处理这些文档。

ColPali论文: https://arxiv.org/abs/2407.01449``ColPali博客: https://huggingface.co/blog/manu/colpali``ColPali实战: https://github.com/weaviate/recipes/blob/main/weaviate-features/named-vectors/NamedVectors-ColPali-POC.ipynb

混合ColPali RAG

混合ColPali RAG 结合了图像嵌入和ColPali的后期交互机制的优势，进一步提高了检索性能。

系统首先使用图像嵌入（例如来自 JinaCLIP 等模型）执行粗略检索步骤，以检索前 k 个相关文档页面。
然后，在第二遍中，系统使用 ColPali 后期交互机制对这 k 个页面重新排序，以根据视觉和文本信息确定最终最相关的页面集。

当文档包含复杂的视觉效果和详细的文本时，这种混合方法特别有用，允许系统利用这两种内容类型进行高度准确的文档检索。

🚀 开始使用VARAG

每种视觉RAG技术都被构建为一个类，抽象所有组件并提供以下方法：

from varag.rag import {{RAGTechnique}}``   ``ragTechnique = RAGTechnique()``   ``ragTechnique.index(`  `"/path_to_data_source",`  `other_relevant_data``)``   ``results = ragTechnique.search("query", top_k=5)``   ``# These results can be passed into the LLM / VLM of your choice

为什么要抽象这么多？

VARAG最初打算快速测试和评估不同的基于视觉的 RAG（检索增强生成）系统，以确定哪一个最适合我的用例，最终演化成了一个框架或库。

这种抽象旨在简化尝试不同 RAG 范例的过程，而不会使组件之间的兼容性复杂化。为了使事情变得简单，选择 LanceDB作为向量存储，因为它易于使用且可定制性高。

VARAG提供了4种视觉RAG技术的测试脚本，可以快速尝试与评测

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述