[打造多模态视觉助手：使用RAG-Chroma解析幻灯片中的图像信息]

最新推荐文章于 2024-09-30 16:47:12 发布

stjklkjhgffxw

最新推荐文章于 2024-09-30 16:47:12 发布

阅读量804

点赞数 7

文章标签：前端人工智能 python

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142658713

版权

引言

在视觉信息日益重要的今天，多模态大语言模型（LLM）为图像问答任务提供了强大的支持。在本文中，我们将探讨如何使用RAG-Chroma模板创建一个视觉助手，以解析幻灯片中的图像信息并进行问答。这个工具特别适合包含大量图表或图形的幻灯片，如季度财报。

主要内容

模板简介

RAG-Chroma多模态工具利用OpenCLIP嵌入技术，将幻灯片中的图像进行嵌入并存储在Chroma中。当用户提出问题时，系统会检索相关的幻灯片，并利用GPT-4V生成答案。

环境设置

安装依赖：
使用以下命令安装所需的依赖包：
```
poetry install
```
创建索引：
为了处理幻灯片，需要先创建图像索引：
```
python ingest.py
```
设置环境变量：
你需要设置 OPENAI_API_KEY 来访问OpenAI的GPT-4V服务。

模型和存储

嵌入模型：默认使用ViT-H-14模型进行多模态嵌入，适合内存要求较低的场景。
存储：图像嵌入存储在Chroma中，支持不同的嵌入模型选择。

使用说明

安装LangChain CLI

pip install -U langchain-cli

创建新项目或添加至现有项目

新项目：

langchain app new my-app --package rag-chroma-multi-modal

现有项目：
添加以下代码至 server.py 文件：

from rag_chroma_multi_modal import chain as rag_chroma_multi_modal_chain
add_routes(app, rag_chroma_multi_modal_chain, path="/rag-chroma-multi-modal")

运行LangServe

在设定目录中启动LangServe实例：

langchain serve

使用LangSmith进行追踪与监控（可选）

你可以使用LangSmith来追踪和调试LangChain应用。设置相关环境变量以启用该功能。

代码示例

以下是一个简单的代码示例，用于展示如何在现有项目中集成RAG-Chroma功能：

from rag_chroma_multi_modal import chain as rag_chroma_multi_modal_chain
from langserve.client import RemoteRunnable

# 添加路由
add_routes(app, rag_chroma_multi_modal_chain, path="/rag-chroma-multi-modal")

# 使用RemoteRunnable访问功能
runnable = RemoteRunnable("http://localhost:8000/rag-chroma-multi-modal")