高维数据检索：PQ（积量化）算法

三余知行

于 2024-08-20 09:15:00 发布

阅读量1.7k

点赞数 28

分类专栏：「数智通识」「机器学习」文章标签： faiss 积量化 PQ 算法近邻算法推荐系统 RAG AIGC

本文链接：https://blog.csdn.net/ChaoMing_H/article/details/141336391

版权

文章目录

在大 AI 时代，高维数据的处理与检索一直是一项重要的技术需求。面对高维数据的海量增加，传统的数据处理方法往往无法应对存储和计算开销的挑战。PQ（积量化）算法以其高效性受到广泛关注，旨在通过量化技术对数据进行压缩，并提高近似搜索的效率。本文将深入探讨 PQ 算法的基本原理，包括量化与码本的构建、维度灾难与内存开销的分析，以及积量化的创新与应用。

在这里插入图片描述

PQ 算法

PQ 算法概述

PQ 算法的核心思想是对高维向量进行量化处理。具体而言，PQ 算法首先将高维向量划分为多个低维子向量（称为子空间），并对各个子向量进行量化。在这一过程中，每个子向量可以被视为与其对应的质心相近的代表，其实质是在信息量损失可接受的范围内，实现高效压缩。

量化过程

量化过程的关键在于如何选择质心并构建码本。一般使用 K-means 聚类算法来确定质心。每个子空间中的向量都归类到其最近的质心，并将该质心的索引作为代表。例如，假设我们有以下四个向量：

$[0.1, 0.5]$
$[0.2, 0.6]$
$[0.9, 0.8]$
$[0.95, 0.9]$

使用 K-means 聚类算法将其聚成两类：

类 1： $[0.1, 0.5]$ , $[0.2, 0.6]$
类 2： $[0.9, 0.8]$ , $[0.95, 0.9]$

其质心为：

质心 1： $[0.15, 0.55]$
质心 2： $[0.925, 0.85]$

每个向量用其质心的索引表示：

向量 1 和 2 使用索引 0（质心 1）
向量 3 和 4 使用索引 1（质心 2）

码本构建

码本就是保存所有质心的集合。它允许通过索引快速查找相应的质心。在我们的例子中，码本为：

索引 0： $[0.15, 0.55]$
索引 1： $[0.925, 0.85]$

模拟数据推演

以下是一个简单的 Python 代码示例，展示 PQ 算法的量化过程：

import numpy as np
from sklearn.cluster import KMeans

# 示例数据
data = np.array([[0.1, 0.5], [0.2, 0.6], [0.9, 0.8], [0.95, 0.9]])

# K-means聚类
kmeans = KMeans(n_clusters=2)
kmeans.fit(data)

# 打印质心和标签
print("质心：", kmeans.cluster_centers_)
print("标签：", kmeans.labels_)

维度灾难与内存开销

维度灾难问题

“维度灾难”指的是随着数据维度的增加，数据的分布变得极为稀疏，若需保障质心足以代表聚类的数据点，质心的数量（聚类数）将急剧膨胀，这将导致计算效率和有效性大幅下降。在进行聚类与质心替换时，维度灾难会对计算的精确度，聚类的质量造成负面影响，计算与存储成本也会陡增。在这种情况下，PQ 算法通过将高维向量分解为低维子向量来对抗这一问题。

过程推演

假设我们有一组 1 维、2 维、128 维的向量数据，我们逐步增加维度，观察数据的稀疏性变化及其对质心替换的影响。

考虑一组简单的 1 维数据：

data_1d = np.array([[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [

最低0.47元/天解锁文章