目录
背景
作为向量数据库的重要核心概念,引入与适用场景匹配的相似度,在search 或 query 时至关重要。在前面讲述 Chroma 的相似度计算时,已经说清楚了 Cosine,IP, l2 三种相似度计算的不用及适用场景。Milvus 在相似度的匹配中,也包含了这些核心概念,但应该说 Milvus 在这方面考虑得更细致一些, 下面看下Milvus 在这方面的使用。
Chroma 更加侧重于轻量级的,LLM领域的 vector store 与 search,所以Chroma 更加关注的是 floating vector 的存储。因为熟悉 LLM embedding 的都应该很清楚,无论你使用何种 embedding 模型,包括 google transfomer,或是其他你在 mode scope 上下载的 embedding model,句子在 embedding 后肯定是一个 dim 维度的 float类型的向量。正因为如此,Chroma 的重点在关注 float vector 的embedding 上。所以还是那句话,应用场景决定了软件设计。
但Milvus 在关注 LLM 的 vector store 与 query 时,同时也关注 Binary 与 Sparse