构建多模态幻灯片助手：使用RAG-Chroma进行视觉问答

最新推荐文章于 2024-10-10 16:01:28 发布

adfyvatbia

最新推荐文章于 2024-10-10 16:01:28 发布

阅读量135

点赞数 2

文章标签：人工智能 python

本文链接：https://blog.csdn.net/adfyvatbia/article/details/142822571

版权

构建多模态幻灯片助手：使用RAG-Chroma进行视觉问答

引言

在信息密集的现代社会，快速提取并理解视觉数据至关重要。尤其是在商业会议中，幻灯片中包含许多图表和图像。然而，手动从幻灯片中提取信息耗时且容易疏漏。本文章介绍如何通过多模态LLMs（大语言模型）与视觉嵌入技术结合，构建一个能够从幻灯片中回答问题的视觉助手。

主要内容

1. 系统概述

使用OpenCLIP嵌入将幻灯片中的所有图像嵌入到Chroma存储中，结合GPT-4V进行答案合成。通过这种方式，即使是复杂的视觉数据也可以被有效地解析和查询。

2. 环境准备

首先，确保已安装LangChain CLI，并配置好OpenAI API密钥：

pip install -U langchain-cli
export OPENAI_API_KEY=<your-openai-api-key>

3. 创建幻灯片索引

在/docs目录中添加您的幻灯片文件，并运行以下命令来创建索引：

poetry install
python ingest.py

4. 存储与嵌入

默认情况下，系统使用ViT-H-14模型进行嵌入。您可以在rag_chroma_multi_modal/ingest.py中更改使用的嵌入模型。

from chroma import Chroma
from openclip import OpenCLIPEmbeddings

vectorstore_mmembd = Chroma(
    collection_name="multi-modal-rag",
    persist_directory="path/to/store",
    embedding_function=OpenCLIPEmbeddings(
        model_name="ViT-H-14", # 模型名称
        checkpoint="laion2b_s32b_b79k"
    ),
)

5. 使用指南

启动LangChain应用，添加rag-chroma-multi-modal包并在服务器上运行。

langchain app new my-app --package rag-chroma-multi-modal
langchain serve

您可以通过以下代码访问模板：

from langserve.client import RemoteRunnable

runnable = RemoteRunnable("http://localhost:8000/rag-chroma-multi-modal")

代码示例

以下是创建一个新的LangChain项目并集成该多模态模板的示例：

langchain app new my-visual-assistant --package rag-chroma-multi-modal

在server.py中添加：

from rag_chroma_multi_modal import chain as rag_chroma_multi_modal_chain
add_routes(app, rag_chroma_multi_modal_chain, path="/rag-chroma-multi-modal")