向量数据库到底是怎么工作的？

最新推荐文章于 2024-09-28 09:00:00 发布

musicml

最新推荐文章于 2024-09-28 09:00:00 发布

阅读量626

点赞数 8

文章标签：数据库

本文链接：https://blog.csdn.net/musicml/article/details/135164126

版权

▼最近直播超级多，预约保你有收获

今晚直播：《向量数据库核心技术和企业级案例实现》

—1—

向量数据库是如何工作的？

MySQL 等传统数据库的工作原理，是在行和列中存储字符串、数字和其他类型的结构化数据，通常查询数据库中的行，其中值通常与我们的查询完全匹配。向量数据库中，是对非结构化的向量进行操作，通常应用相似性度量来查找与我们的查询最相似的向量，因此向量数据库只能提供近似结果，无法提供准确匹配。

向量数据库一般包括以下几个部分：索引、查询、过滤。

第一步、建立索引

向量数据库使用 HNSW（分层可导航小世界）等算法对向量进行索引，此步骤将向量映射到数据结构，以实现更快的搜索。索引的目标是通过创建可快速遍历的数据结构来实现快速查询，通常会将原始向量的表示形式转换为压缩形式以优化查询过程。HNSW 创建一个分层的树状结构，其中树的每个节点代表一组向量。节点之间的边代表向量之间的相似度。该算法首先创建一组节点，每个节点都有少量向量。这可以随机完成，也可以通过使用 k 均值等算法对向量进行聚类来完成，其中每个聚类都成为一个节点。

第二步、查询检索

向量数据库将索引查询向量与数据集中的索引向量进行比较，以找到最近的邻居，这里会应用该索引使用的相似性度量。相似性度量是用于确定向量空间中两个向量相似程度的数学方法。向量数据库中使用相似性度量来比较数据库中存储的向量并找到与给定查询向量最相似的向量。可以使用多种相似性度量，包括：余弦相似度、欧氏距离、点积等相似度算法。