手把手教你搭建AI搜图系统：基于BGE-VL+Milvus的完整实现指南

最新推荐文章于 2025-05-05 13:07:46 发布

江湖人称麻花滕

最新推荐文章于 2025-05-05 13:07:46 发布

阅读量907

点赞数 11

文章标签：人工智能 milvus 分类数据挖掘物联网架构

本文链接：https://blog.csdn.net/m0_59235699/article/details/147232409

版权

引言

图像搜索有何价值？

帮你找身份证：在海量相册里搜索身份证
电商神器：淘宝"拍立淘"让你拍照变订单
设计师救星：3秒找到可商用的高清素材图

老搜索vs新搜索的区别

老搜索：像查字典，必须输入正确关键词
新搜索：像跟人聊天，图片/语音都能搜，还能理解表情包

为什么选BGE-VL+Milvus这个王炸组合？

就像给搜索引擎装了"人脑"（BGE-VL理解图片内涵）
加上"闪电手"Milvus（毫秒级匹配海量图片）
效果：既懂你要什么，又能光速给出结果

阅读文本你将学会：

如何搭建自己的多模态搜索引擎（以文搜图、以图搜图、以图搜文）
了解多模态搜索的基本原理

像做菜一样搭建AI搜图系统（简易五步法）

技术名词	生活化比喻
向量	图片的"指纹"
相似度计算	“口味对比”
索引	冰箱的"智能标签"

准备食材（技术配料表）

🔧 你需要：
1. 电脑（带显卡更佳，像 RTX3060"炒菜锅"）  
2. Python 3.8+（"厨房刀具"）
3. 两个核心调料包：
   - BGE-VL-Base模型（图像特征"提取器"）
   - Milvus数据库（向量"保鲜柜"）

第一步：洗菜切菜（搭建环境）

安装python

下载对应版本的miniconda: https://repo.anaconda.com/miniconda/

下载BGE-VL-Base模型

https://huggingface.co/BAAI/BGE-VL-base这个模型比较小，速度快，有更高需求的可以下载大语言模型：https://huggingface.co/BAAI/BGE-VL-MLLM-S1

第二步：炒菜（提取图像特征）

一句话解释：让AI模型"品尝"图片并记住味道特征

from modelscope import AutoModel

MODEL_NAME = "BAAI/BGE-VL-base" # 可以指定本地路径，就不用去网上下载了
model = AutoModel.from_pretrained(MODEL_NAME, trust_remote_code=True)
model.set_processor(MODEL_NAME)
model.eval()
model = model.to("cuda")

def cal_vector(img_path):
    with torch.no_grad():
        vector = model.encode(
            images = [img_path]
        )
    features = vector[0].cpu()
    return features

❗ 常见翻车：不同的模型输入的图像特征长度使不一样的，如BGE-VL-base维度使512

第三步：保鲜存储（存入Milvus）

生活类比：把菜分装贴标签放冰箱（向量数据库）

创建一个"智能冰箱分区"

# pip install -U pymilvus
from pymilvus import MilvusClient
# 创建一个"智能冰箱分区"
collection_name = "milvus_demo.db"
client = MilvusClient(collection_name)

# 1. Create a schema
schema = MilvusClient.create_schema(
    auto_id=False,
    enable_dynamic_field=False,
)

# 2. 添加需要的字段，我这里id用来存放32为文件的md5哈希
schema.add_field(field_name="id", max_length=32, datatype=DataType.VARCHAR, is_primary=True)
schema.add_field(field_name="vector", datatype=DataType.FLOAT_VECTOR, dim=512)
schema.add_field(field_name="file_path", datatype=DataType.VARCHAR, max_length=512)

# 3. 创建数据库
client.create_collection(
    collection_name=collection_name,
    schema=schema,
    dimension=512,  # 指定特征的维度，我们的模型是512
)

把特征向量和图片ID一起冷藏

# 把特征向量和图片ID一起冷藏
client.insert(
    collection_name=collection_name,
    data={
        "id": str(index),
        "vector": vector.tolist(),
        "file_path": f"file_{index}.jpg",
    }
)

第四步：快速翻找（搜索逻辑）

工作流程：

用户上传图片 → 提取"味道特征"
在冰箱里找"相似味道"的菜 → 返回结果TOP5

res = client.search(
    collection_name=collection_name,
    anns_field="vector",
    data=[query_vector.tolist()],
    limit=5, # top5
    output_fields=["id", "file_path"]  # 指定需要返回的字段
)
print(res)

第五步：摆盘上菜（展示结果）

可以直接打印，也可以写交互界面如html、Gradio

for hits in res:
    for hit in hits:
        print(hit)

✅ 恭喜！ 你现在已经拥有了一个Pinterest级别的搜图核心引擎！

原理解析继续往下看：

🛵 用"外卖小哥"的故事理解Milvus

场景设定

假设你开了一家万能超市：

商品 = 图片的向量特征（每张图对应一个"味道指纹"）
顾客 = 用户上传的搜索图片
外卖小哥 = Milvus的搜索算法

1. 原始情况（暴力搜索）

❌ 方法：每次新订单来了，让小哥从超市门口开始，挨个货架对比所有商品的味道
🚫 问题：超市有100万商品时，小哥跑到腿断也送不完

（对应技术：线性搜索时间复杂度O(n)）

2. 初级优化——分区域配送（IVF_FLAT索引）

🛒 超市改造：

把商品按口味相似度分到不同区域（比如"甜食区"、“辣味区”）
每个区域配一个口味雷达（聚类中心）

📦 配送流程：

顾客下单后，先用雷达快速确定最匹配的3个区域

# 类似Milvus的nprobe参数
search_params = {"nprobe": 3}  # 只检查3个最像的区域

小哥只在这3个区域内精细对比

✅ 效果：配送时间从2小时→15分钟

（对应技术：倒排索引，牺牲少量精度换速度）

3. 高级优化——建立小路网（HNSW索引）

🛣️ 超市升级：

在所有商品之间建立多层快捷小路
- 上层路网：连接距离远的商品（高速公路）
- 下层路网：连接距离近的商品（小区道路）

🚴 配送玄机：

小哥从顶层开始，像玩跳棋一样快速接近目标区域
到底层后，通过密集小路精确找到最近邻居

🔍 名词解释：

索引类型	类比	适合场景
IVF_FLAT	分区域配送	商品口味差异大时
HNSW	多层小路网	商品口味细分类时

（对应技术：近邻图算法，适合高维向量）

4. 极端情况处理

🍔 场景1：顾客非要找"微辣但带点甜"的奇葩商品
👉 解决方案：调整ef参数，让小哥多跑几条路仔细找

search_params = {"ef": 32}  # 搜索范围扩大

🛑 场景2：超市突然停电（服务重启）
👉 应急预案：

提前让小哥记住主干道路线（预加载索引）
准备备用发电机（WAL日志机制）

💡 用户能直接复用的代码彩蛋

# 像选择外卖软件配送方案一样选索引
def choose_index(total_images):
    if total_images < 100_000:
        return "HNSW"      # 小超市用复杂路网
    else:
        return "IVF_FLAT"  # 大仓库用区域划分

哈哈，接下来我们用「奶茶店分装」来破解Faiss的PQ量化技术，保证让你笑着学会最难的优化算法！

🧋 用奶茶店操作台理解Faiss-PQ量化（含完整可运行代码）

场景设定

假设你的AI搜图系统突然爆火，每天要处理1000万张图片，Milvus服务器开始冒烟… 这时候就需要像奶茶店那样搞「分装预制」！

🧊 第一步：原料标准化（向量切分）

▌现实问题
每张图的特征向量有512维（相当于奶茶要用512种原料调配），太复杂了！

▌奶茶店妙招：

把512维向量切分成8段（每段64维）

# 像把奶茶原料按种类分装
sub_vectors = np.split(big_vector, 8)

每段单独处理，相当于：
- • 第1段：茶基底（0-63维）
- • 第2段：糖分（64-127维）
- • …
- • 第8段：小料（448-511维）

❗ 关键点：每个工人只需要记住自己那段的配方，不用管全部512种原料

🏷️ 第二步：建立原料代码本（训练聚类）

▌操作台秘密：
每个工段准备256种标准配方（用K-Means聚类生成）：

# 类似奶茶店糖分预制：无糖/3分/5分/全糖...
kmeans = faiss.Kmeans(64, 256)  # 每段64维，聚成256类
kmeans.train(sub_vectors[0])

🎯 效果：
当新图片进来时，把它的每个分段匹配到最接近的标准配方：

# 像判断顾客要的糖度接近哪档
codes = [kmeans.index.search(sub_vec,1)[1] for sub_vec in sub_vectors]
# 得到类似 [253, 182, 7, ...] 的8个编码

💸 第三步：极速出品（量化搜索）

▌省时秘诀：

预处理：把所有图片特征都转换成8个编码（比如[253,182,7,...]）
搜索时：只需要比对这些编码的距离，不用算完整向量

# 建立量化索引（类似奶茶店条码系统）
quantizer = faiss.IndexFlatL2(512)
index = faiss.IndexIVFPQ(quantizer, 512, 100, 8, 8) 
# 参数解释：100=分区数，8=分段数，8=每段比特数

🚀 速度对比：

搜索方式	计算量	类比
原始搜索	512维全量计算	现萃茶（等20分钟）
PQ量化	8个编码比对	用预制料摇杯（30秒出货）

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述