AI基于近邻图的向量搜索（一）

人工智能MOS

已于 2024-01-26 20:24:16 修改

阅读量1k

点赞数 15

文章标签：人工智能算法深度学习机器学习

于 2024-01-20 17:15:00 首次发布

本文链接：https://blog.csdn.net/2301_81887304/article/details/135689809

版权

本文介绍了基于近邻图的向量搜索，特别是SPTAG算法，用于大规模向量的近似最近邻搜索。文章详细阐述了最近邻问题、SPTAG在搜索引擎中的应用，以及KD-Tree和BKTree两种数据结构的构建和搜索算法。SPTAG结合树和图的优势，解决了高维向量搜索效率问题，是解决复杂搜索任务的有效方法。

摘要由CSDN通过智能技术生成

案例介绍

使用场景

最近邻搜索的应用场景十分广泛，包括计算机视觉、模式识别、基于内容的图像或视频检索等。

在这其中，SPTAG的一个重要应用场景便是搜索引擎了。随着深度学习的发展，我们可以利用深度神经网络将绝大部分的内容（常见的有文本、图片、音频、视频等）映射到高维空间，获取到对应的向量。利用向量，我们便可以更轻易地找出相关联的内容。

在搜索引擎中的应用

在过去，传统的搜索引擎往往是通过"关键词"对内容进行检索，但这就要求了用户需要将问题抽象成几个"关键词"，且需要精确描述问题。然而，随着网络信息的爆炸式增长和信息技术的高速发展，工程师们发现用户习惯已经悄然改变：用户搜索的内容越来越长，他们往往期望通过输入一段自然语言甚至一张图片来搜索出他们想要的结果，而不只是通过关键词。网络搜索任务也因此变得更加复杂和多样化了。

为此，我们需要思考如何才能将自然语言或者图片与数据库中的内容匹配，找出最相关的内容呢？为了让计算机认识自然语言、图片等内容，我们需要将其编码成计算机认识的形式，其中，最常见和有效的就是向量了。向量可以是各种形式的内容（如关键词、图片、语音等）在高维空间的表示。我们可以利用现有的算法（如深度神经网络）将不同形式的内容转化的向量，获取到对应的向量。向量在高维空间的表示是有意义的，我们认为关联性越强的内容在空间上的距离越小或相似度越大。

利用向量的表示，我们可以将数据库的内容全部转换成向量，再将用户的搜索输入用同样的算法转换成在同一个空间的向量。此时，搜索引擎的匹配问题就变成了最近邻问题（Nearest Neighbor）。我们的任务就是从大规模的向量中找出与输入向量最相近的一组向量。

对于大规模数据，Brute-Force或线性查找的时间复杂度是难以接受的。因此，我们需要合适的算法来提高搜索速度。传统的关键词检索可以通过构建倒排索引（Inverted Index）来提高检索速度，但是我们

最低0.47元/天解锁文章

人工智能MOS

关注

15
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
AI基于近邻图的向量搜索（一）

于是，问题最终变成了。因此，微软提出了SPTAG，通过结合树和图，在弥补各自的不足的基础上，还做出了一定的优化。二叉搜索树的数据仅有一维，而对于多维数据，我们可以在每次划分时选择其中的任意一维作为划分值，若数据中选定的某一维度的值小于等于划分值，归入左子树，大于划分值则归入右子树。当我们需要预测一个新的点类别时，我们将该点分别与K个类别的中心点计算距离，距离最近的中心点的类别即为新的点的类别。利用向量的表示，我们可以将数据库的内容全部转换成向量，再将用户的搜索输入用同样的算法转换成在同一个空间的向量。
复制链接

扫一扫