文本到图像搜索实战：基于 CLIP 和 Milvus 的语义检索实现-CSDN博客

本文链接：https://blog.csdn.net/The_Thieves/article/details/147625577

在日常开发中，我们常常会遇到这样的需求：用户希望通过自然语言描述搜索图像，比如输入 “一片金黄的麦田在夕阳下” 就能找到对应的图片。传统的关键词匹配方式难以处理语义信息，而基于深度学习的多模态模型为解决这个问题提供了可能。今天，我们就来聊聊如何利用 OpenAI 的 CLIP 模型和 Milvus 向量数据库，实现高效的文本到图像语义检索，适合对多模态检索感兴趣的开发者上手实践。

一、问题引入：从关键词搜索到语义检索的跨越

传统图像搜索依赖标签匹配或 OCR 识别，存在明显局限性：

语义鸿沟：“毛茸茸的宠物” 可能对应狗、猫、兔子等多种图像，关键词无法涵盖所有可能
扩展性差：新增类别需手动标注标签，难以应对动态变化的用户需求
效率低下：基于字符串的匹配无法处理百万级以上图像库

CLIP 模型的出现打破了这一困境，它通过对比学习将文本和图像映射到共享语义空间，使得 “文本 - 图像” 的跨模态检索成为可能。结合 Milvus 向量数据库的高效检索能力，我们可以构建一个支持自然语言描述的图像搜索系统。

二、核心技术：CLIP 与 Milvus 的协同工作原理

1. CLIP 模型：打通文本与图像的语义桥梁

预训练能力：CLIP 在 4 亿对文本 - 图像对上训练，能理解复杂语义关系（如 “红色汽车在雨中行驶” 包含颜色、物体、场景信息）
双向编码：
- 文本编码：将自然语言转换为 512 维向量（如 “a white dog”→语义向量）
- 图像编码：通过 ViT-B/32 等架构提取图像特征，同样输出 512 维向量
余弦相似度：通过归一化处理，文本和图像向量的余弦距离直接反映语义相似性

2. Milvus 向量数据库：高效存储与检索

向量索引：支持 FLAT、IVF、HNSW 等索引类型，本例中使用默认的 FLAT 索引保证精度
动态字段：存储图像文件路径等元数据，方便结果可视化
多模态支持：统一存储文本和图像向量，支持跨模态检索

三、准备工作：环境搭建与数据准备

1. 安装依赖库

首先，我们需要安装必要的库。pymilvus用于与 Milvus 交互，clip是 CLIP 模型的 Python 库，pillow用于图像处理：

python

运行

# 安装Milvus客户端、图像处理库和CLIP模型
pip install --upgrade pymilvus pillow
pip install git+https://github.com/openai/CLIP.git

这里需要注意，如果你使用的是 Google Colab，可能需要重启运行时才能让依赖生效。

2. 下载示例数据

我们使用 ImageNet 的一个子集作为示例数据，包含 100 个类别的 1000 张图像。通过以下命令下载并解压：

bash

# 下载和解压示例图像数据
wget https://github.com/towhee-io/examples/releases/download/data/reverse_image_search.zip
unzip -q reverse_image_search.zip -d images_folder

3. 设置 Milvus 服务器

Milvus 有多种部署方式，我们可以根据需求选择：

Milvus Lite：适合本地开发，数据存储在单个文件中，只需设置 URI 为./milvus.db。
Docker/Kubernetes：用于处理大规模数据，URI 为服务器地址，如http://localhost:19530。
Zilliz Cloud：托管服务，使用公共端点和 API 密钥。
这里我们以 Milvus Lite 为例，连接到本地服务器：

python

运行

from pymilvus import MilvusClient
# 初始化Milvus客户端，使用本地Lite模式
milvus_client = MilvusClient(uri="milvus.db")

四、核心实现：特征提取与数据处理

1. 定义特征提取函数

CLIP 模型提供了文本和图像的编码器，我们需要定义两个函数来分别处理文本和图像：

python

运行

import clip
from PIL import Image
# 加载CLIP模型，这里使用ViT-B/32变体
model_name = "ViT-B/32"
model, preprocess = clip.load(model_name)
model.eval()  # 设置模型为评估模式

# 图像编码函数：预处理图像，提取特征并归一化
def encode_image(image_path):
    image = preprocess(Image.open(image_path)).unsqueeze(0)
    image_features = model.encode_image(image)
    # 归一化特征向量，确保余弦相似性计算准确
    image_features /= image_features.norm(dim=-1, keepdim=True)
    return image_features.squeeze().tolist()

# 文本编码函数：分词，提取特征并归一化
def encode_text(text):
    text_tokens = clip.tokenize(text)
    text_features = model.encode_text(text_tokens)
    text_features /= text_features.norm(dim=-1, keepdim=True)
    return text_features.squeeze().tolist()

这里的归一化操作非常重要，因为余弦相似性基于单位向量计算，归一化可以确保不同长度的向量在比较时的公平性。我在实践中发现，如果不进行归一化，搜索结果的准确性会大幅下降，这是一个容易踩的坑。

2. 创建 Milvus 集合并插入数据

接下来，我们创建一个集合来存储图像向量。集合需要指定维度（CLIP 输出向量维度为 512），并启用自动生成 ID：

python

运行

collection_name = "image_collection"
# 如果集合存在则删除，重新创建
if milvus_client.has_collection(collection_name):
    milvus_client.drop_collection(collection_name)
# 创建集合，指定维度和自动ID
milvus_client.create_collection(
    collection_name=collection_name,
    dimension=512,
    auto_id=True,
    enable_dynamic_field=True
)

然后，遍历图像文件夹，提取每张图像的特征，并插入到 Milvus 中。这里我们还存储了图像的文件路径，方便后续可视化：

python

运行

import os
from glob import glob
image_dir = "./images_folder/train"
raw_data = []
# 遍历所有JPEG图像，生成特征并构建数据列表
for image_path in glob(os.path.join(image_dir, "**/*.JPEG"), recursive=True):
    image_embedding = encode_image(image_path)
    # 动态字段存储文件路径
    image_dict = {"vector": image_embedding, "filepath": image_path}
    raw_data.append(image_dict)

# 插入数据到Milvus
insert_result = milvus_client.insert(
    collection_name=collection_name,
    data=raw_data
)
print(f"成功插入{insert_result['insert_count']}张图像到Milvus")

五、执行搜索与结果可视化

1. 文本查询与搜索

现在，我们可以用一段文本进行搜索。首先将文本编码为向量，然后调用 Milvus 的搜索接口，返回最相似的 10 张图像：

python

运行

query_text = "a white dog"  # 示例查询文本
query_embedding = encode_text(query_text)  # 编码查询文本
# 执行搜索，返回文件路径字段
search_results = milvus_client.search(
    collection_name=collection_name,
    data=[query_embedding],
    limit=10,
    output_fields=["filepath"]
)

2. 可视化搜索结果

我们使用 Pillow 库将搜索结果的图像拼接起来，方便查看：

python

运行

from IPython.display import display
from PIL import Image

width = 150 * 5
height = 150 * 2
concatenated_image = Image.new("RGB", (width, height))
result_images = []

# 处理搜索结果，加载并调整图像大小
for result in search_results:
    for hit in result:
        filename = hit["entity"]["filepath"]
        img = Image.open(filename).resize((150, 150))
        result_images.append(img)

# 拼接图像
for idx, img in enumerate(result_images):
    x = idx % 5
    y = idx // 5
    concatenated_image.paste(img, (x * 150, y * 150))

print(f"查询文本：{query_text}")
display(concatenated_image)  # 显示拼接后的图像

六、实践中的思考与优化建议

模型选择：CLIP 有多个变体（如 ViT-B/16、ViT-L/14），模型越大，特征表达能力越强，但计算成本也越高。我们可以根据项目需求选择合适的模型。
数据规模：示例数据只有 1000 张图像，实际应用中可能需要处理百万级甚至亿级数据。这时候，使用 Docker 部署 Milvus 或选择 Zilliz Cloud 托管服务会更高效。
搜索性能：Milvus 支持多种索引类型（如 IVF、HNSW），通过合理选择索引，可以大幅提升搜索速度。建议在数据插入后创建索引，比如：

python

运行

# 创建HNSW索引，提升搜索速度
milvus_client.create_index(
    collection_name=collection_name,
    index_name="hnsw_index",
    index_params={
        "index_type": "HNSW",
        "metric_type": "COSINE",
        "params": {"M": 8, "efConstruction": 64}
    }
)

多模态扩展：除了文本和图像，我们还可以结合其他模态数据（如视频、音频），只需将对应特征编码后存入 Milvus，即可实现多模态搜索。

总结

通过 Milvus 和 CLIP 的结合，我们实现了一个高效的文本到图像搜索系统。从环境搭建到特征处理，再到搜索与可视化，每一步都需要关注细节，比如特征归一化、数据存储方式和索引优化。在实际开发中，我们可能会遇到各种问题，比如大规模数据下的性能瓶颈、模型精度不足等，但 Milvus 的可扩展性和 CLIP 的强大语义理解能力为我们提供了解决方案。

希望这篇文章能帮到正在学习向量检索和多模态技术的你。如果你觉得有用，欢迎点击关注，后续会分享更多关于 Milvus 优化、多模态模型调优等实战经验。让我们一起在技术探索的道路上不断前行，解决更多实际问题！