目录
背景
图片-文字交互式搜索应用非常广泛,实际上在本专栏前面的一篇文章 Milvus 实践(1) --- 文本-图片交互式search搭建及原理_milvus 混合查询 文本-CSDN博客 中已经给出了一个代码的实现及思路。这种方式在文本图片搜索中有着广泛应用,它的本意是将图片与文本通过不同模型训练后,投射到相同维度的向量空间,然后将已配对的图片文本描述与图片二进制数据所形成的相同维度的向量,计算二者的相似度,使其他们的相似度尽可能的高。同时那些没有配对的图片文本描述与图片数据,其计算出的相似度尽可能偏低。这也是CLIP的根本逻辑所在。你如果还不是很明白,可以参看本专栏上一篇文章。应用这个方式,有一定的局限性,一方面他只能将一个文本与对应的一张图片进行‘绑定’,另一方面,在分别训练文本与图片的过程中,他要求映射到高维向量的维度必须是相同的。本次通过借助 Milvus 2.4.x的