利用CLIP/BLIP的Embedding构建多模态RAG向量检索

_冷眸_

已于 2024-12-03 14:55:47 修改

阅读量1.2k

点赞数 23

文章标签： embedding agi 人工智能

于 2024-12-03 14:44:01 首次发布

本文链接：https://blog.csdn.net/pydaxing_pdx/article/details/144214481

版权

阅读原文 | GITHUB

在信息爆炸的时代，如何快速从海量数据中找到最相关的信息成为了一个重要的研究课题。RAG（Retrieval-Augmented Generation，检索增强生成）技术作为一种高效的信息检索与生成结合的方法，在自然语言处理领域展现了强大的应用潜力。其核心在于将预训练语言模型与检索模块结合，通过嵌入向量的高效匹配实现信息的精准获取。

在RAG技术中，嵌入向量的生成和匹配是关键环节。本文介绍了一种基于CLIP/BLIP模型的嵌入服务，该服务支持文本和图像的嵌入生成与相似度计算，为多模态信息检索提供了基础能力。

本项目的嵌入服务基于 FastAPI 框架，围绕以下功能展开：

文本嵌入生成：输入任意文本，生成对应的嵌入向量。
图像嵌入生成：支持通过 URL 获取图像并生成其嵌入向量。
相似度计算：通过余弦相似度计算查询数据与候选数据的相关性。
多任务并发处理：利用异步编程和线程池加速大规模候选集的嵌入生成过程。
高效排序：根据相似度对候选数据进行排序，返回最相关的结果。

技术亮点

本嵌入服务在设计和实现上具有以下技术优势：

多模态支持：无缝处理文本和图像数据，适配多场景需求，为跨模态信息检索提供统一的解决方案。
高性能优化：利用 GPU 加速嵌入生成，并通过异步任务调度与线程池并发执行，提升服务吞吐量。
易扩展性：采用模块化设计，便于根据业务需求扩展其他功能，如多语言支持或其他嵌入模型集成。
可靠性：通过任务并发数控制（Semaphore）与异常处理，确保在高并发环境下的服务稳定性。

适用场景

跨模态检索
结合文本和图像的嵌入特性，支持从图像集匹配文本描述，或从文本库中匹配图像描述的能力。例如，通过输入“海边日落”，从图像集中检索出符合描述的照片。
内容推荐
利用嵌入相似性，为用户个性化推荐内容，例如基于用户搜索关键词推荐相关图片或文章。
RAG增强生成
嵌入服务可以作为 RAG 系统的检索模块，为生成式模型提供上下文支持，生成与用户问题高度相关的回答或内容。
智能问答与搜索
应用于多模态问答系统，通过匹配用户问题与多模态知识库内容，实现更精准的检索与回答。

CLIP

CLIP（Contrastive Language–Image Pre-training） 是由 OpenAI 提出的一种多模态模型，能够同时处理文本和图像数据。通过对齐这两种模态的嵌入空间，CLIP 为跨模态检索奠定了坚实的基础。在构建 RAG 系统时，利用 CLIP 生成嵌入可以显著提升多模态信息检索的准确性。

下载模型
HuggingFace：openai/clip-vit-large-patch14

完整代码

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from transformers import CLIPProcessor, CLIPModel
import torch
from PIL import Image
import requests
from io import BytesIO
import numpy as np
import time
import asyncio
from concurrent.futures import ThreadPoolExecutor


# 加载模型和处理器
model = CLIPModel.from_pretrained("/home/data/workgroup/lengmou/Models/openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("/home/data/workgroup/lengmou/Models/openai/clip-vit-large-patch14")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# 函数：生成文本嵌入
def get_text_embedding(text):
    inputs = processor(text=[text], return_tensors="pt", padding=True).to(device)
    with torch.no_grad():
        embedding = model.get_text_features(**inputs)
    return embedding.cpu().numpy()

def get_image_embedding(image_url):
    try:
        response = requests.get(image_url)
        image = Image.open(BytesIO(response.content)).convert("RGB")
        inputs = processor(images=image, return_tensors="pt").to(device)
        with torch.no_grad():
            embedding = model.get_image_features(**inputs)
        return embedding.cpu().numpy()
    except Exception as e:
        return None

    
class EmbeddingService:
    def __init__(self, max_concurrency=5):
        self.semaphore = asyncio.Semaphore(max_concurrency)

    async def get_embedding(self, index, param, result, candidate_type):
        async with self.semaphore:
            loop = asyncio.get_running_loop()
            with ThreadPoolExecutor() as pool:
                if candidate_type == "text":
                    result[index] = await loop.run_in_executor

最低0.47元/天解锁文章