Faiss快速入门

最新推荐文章于 2025-03-10 11:36:04 发布

step step

最新推荐文章于 2025-03-10 11:36:04 发布

阅读量711

点赞数

分类专栏：每日学习笔记

本文链接：https://blog.csdn.net/weixin_42618420/article/details/114886429

版权

每日学习笔记专栏收录该内容

7 篇文章

订阅专栏

目的：收集一批一级分类中的badcase，添加到训练集中，提高精度
方法：利用筛选出的难例的分类特征，构建一个特征索引库，先将训练数据过一遍索引

Faiss is a library for efficient similarity search and clustering of dense vectors.
https://github.com/facebookresearch/faiss/wiki

faiss快速入门

数据准备

faiss可以处理固定维度d的向量集合，这样的集合这里用二维数组表示。一般来说，我们需要两个数组：
1.data。包含被索引的所有向量元素；
2.query。索引向量，我们需要根据索引向量的值返回xb中的最近邻元素。
为了对比不同索引方式的差别，在下面的例子中我们统一使用完全相同的数据，即维数d为512，data包含2000个向量，每个向量符合正态分布。
需要注意的是，faiss需要数组中的元素都是32位浮点数格式。 datatype = ‘float32’。

精确索引

在使用faiss时，我们是围绕index对象进行的。index中包含被索引的数据库向量，在索引时可以选择不同方式的预处理来提高索引的效率，表现维不同的索引类型。在精确搜索时选择最简单的IndexFlatL2索引类型。
IndexFlatL2类型遍历计算查询向量与被查询向量的L2精确距离，不需要训练操作（大部分index类型都需要train操作）。
在构建index时要提供相关参数，这里是向量维数d，构建完成index之后可以通过add()和search（）进行查询。

index = faiss.IndexFlatL2(d) #构建索引
index.add(data) #添加查询库
k = 10 #返回top k 的值
dis, ind = index.search(query, k)

倒排表快速索引

在数据量非常大的时候，需要对数据做预处理来提高索引效率。一种方式是对数据库向量进行分割，划分为多个d维维诺空间，查询阶段，只需要将查询向量落入的维诺空间中的数据库向量与之比较，返回计算所得的k个最近邻结果即可，大大缩减了索引时间。
nlist参数控制将数据集向量分为多少个维诺空间；
nprobe参数控制在多少个维诺空间的范围内进行索引。

nlist = 50
quantizer = faiss.IndexFlatL2(d) #构建索引
index = faiss.IndexIVFFlat(quantizer, d, nlist, faiss.METRIC_L2)
index.train(data)
index.add(data) #添加查询库
index.nprobe = 50
k = 10 #返回top k 的值
dis, ind = index.search(query, k)

乘积量化索引

在上述两种索引方式中，在index中都保存了完整的数据库向量，在数据量非常大的时候会占用太多内存，甚至超出内存限制。
在faiss中，当数据量非常大的时候，一般采用乘积量化方法保存原始向量的有损压缩形式,故而查询阶段返回的结果也是近似的。

nlist = 50
m = 8
k = 10
quantizer = faiss.IndexFlatL2(d)
index = faiss.IndexIVFPQ(quantizer, d, nlist, m, 4) #每个子向量被编码为4bits
index.train(data)
index.add(data)
index.nprobe = 50
dis, ind = index.search(query, k)