MemFire Cloud新特性-pgvector 0.6.0，通过并行索引构建实现30倍速度提升

最新推荐文章于 2024-09-27 16:27:44 发布

NimbleX_

最新推荐文章于 2024-09-27 16:27:44 发布

阅读量123

点赞数 1

分类专栏： MemFireDB 文章标签：数据库

原文链接：https://supabase.com/blog/pgvector-fast-builds

版权

MemFireDB 专栏收录该内容

75 篇文章 5 订阅

订阅专栏

新版本的pgvector引入了pgvector0.6.0，支持HNSW的并行构建，对于大型数据集，构建速度提升高达30倍，尤其是在未记录表上。这使得调整参数以优化搜索准确性和性能更加便捷。

摘要由CSDN通过智能技术生成

好消息，MemFire Cloud应用开发新版本中已支持pgvector 0.6.0版本！！

pgvector 0.6.0版本带来了一个重大改进：为HNSW索引引入了并行构建功能。对于未记录的表（unlogged tables），构建HNSW索引的速度现在快了高达30倍。

这个版本的发布对pgvector来说是向前迈出的一大步，使得调整HNSW构建参数、提高搜索准确性和性能变得更加容易。

pgvector中的HNSW索引

在之前的文章中探讨过 HNSW的工作原理，现在简单回顾一下： HNSW 是一种用于近似最近邻搜索的算法。它使用近邻图，由两部分组成：分层和可导航的小世界。它在具有不同密度或节点间距离的多个层上运行，其中层代表节点间不同的连接长度。因此，HNSW 可以在线性时间内完成搜索、插入和删除。

pgvector并行索引构建

在0.6.0版本之前，pgvector只支持使用单线程构建索引——这对大型数据集来说是一个很大的瓶颈。例如，为1536个维度的100万个向量建立索引大约需要1小时27分钟（使用'm'=16, 'ef_construction'=200参数）。

使用并行索引构建，可以在9.5分钟内为相同的数据集构建索引——速度快了9倍：

性能对比：pgvector 0.5与0.6

使用dbpedia-entities-openai-1M数据集（100万个向量，1536个维度）测试索引构建时间，以比较并行和单线程索引HNSW构建的性能。同时，我们验证了结果索引在准确性和每秒查询数（QPS）方面是相同的。

在不同数据库大小上运行基准测试，以查看并行构建的影响：

4XL实例（16核心 64GB RAM）
16XL实例（64核心 256GB RAM）

4XL实例（16核 64GB RAM）

此基准测试使用了以下参数：

	0.5.1	0.6.0
mainenance_work_mem	30GB	30GB
max_parallel_maintenance_workers	-	15

max_parallel_maintenance_workers控制用于构建索引的并行线程数量。在后续章节中，我们将提到包括领导者在内的总工作线程数量。

0.6.0版本的索引构建时间快了7-9倍，而两个版本的每秒查询数和准确性保持不变：

v0.5.1：所有基准测试的平均QPS为938，准确性为0.963。
v0.6.0：所有基准测试的平均QPS为950，准确性为0.963。

16XL实例（64核 256GB RAM）

您可以使用更强大的实例（这些参数最高可达 13.5 倍）进一步提高索引构建性能。

索引构建时间与使用的内核数不是线性比例关系。max_parallel_maintenance_workers的一个合理默认值是CPU数量 / 2，这是我们在MemFire Cloud平台上设置的默认值。准确性和QPS不受max_parallel_maintenance_workers的影响。