目录
欢迎回到向量数据库 101 系列教程。
之前的教程中,我们介绍了非结构化数据、向量数据库和 Milvus——全球最受欢迎的开源向量数据库。我们还简单介绍了 Embedding 的相关概念,它代表高维向量,可以用作非结构化数据的语义表示,彼此临近的 Embedding 代表语义上是相似的。
本教程中,我们将在这些知识的基础上,通过单词 Embedding 的例子,看看语义相似的非结构化数据是如何相邻的,而不相似的非结构化数据是如何相互“远离”的。这属于近邻搜索的高层次概述,是一个计算问题,涉及到根据统一的距离度量来寻找与查询向量最接近的向量。我们会讨论一些主流的近邻搜索方法(包括我最喜欢的 ANNOY),以及常用的距离度量。
我们开始吧。
比较 Embedding
我们来看下几个词的 Embedding 向量的示例。下面例子中,我们将使用 word2vec,它这是一个古老的模型,使用