Faiss快速入门

目的:收集一批一级分类中的badcase,添加到训练集中,提高精度
方法:利用筛选出的难例的分类特征,构建一个特征索引库,先将训练数据过一遍索引

Faiss is a library for efficient similarity search and clustering of dense vectors.
https://github.com/facebookresearch/faiss/wiki

faiss快速入门

数据准备

faiss可以处理固定维度d的向量集合,这样的集合这里用二维数组表示。 一般来说,我们需要两个数组:
1.data。包含被索引的所有向量元素;
2.query。索引向量,我们需要根据索引向量的值返回xb中的最近邻元素。
为了对比不同索引方式的差别,在下面的例子中我们统一使用完全相同的数据,即维数d为512,data包含2000个向量,每个向量符合正态分布。
需要注意的是,faiss需要数组中的元素都是32位浮点数格式。 datatype = ‘float32’。

精确索引

在使用faiss时,我们是围绕index对象进行的。index中包含被索引的数据库向量,在索引时可以选择不同方式的预处理来提高索引的效率,表现维不同的索引类型。在精确搜索时选择最简单的IndexFlatL2索引类型。
IndexFlatL2类型遍历计算查询向量与被查询向量的L2精确距离,不需要训练操作(大部分index类型都需要train操作)。
在构建index时要提供相关参数,这里是向量维数d,构建完成index之后可以通过add()和search()进行查询。

index = faiss.IndexFlatL2(d) #构建索引
index.add(data) #添加查询库
k = 10 #返回top k 的值
dis, ind = index.search(query, k)

倒排表快速索引

在数据量非常大的时候,需要对数据做预处理来提高索引效率。一种方式是对数据库向量进行分割,划分为多个d维维诺空间,查询阶段,只需要将查询向量落入的维诺空间中的数据库向量与之比较,返回计算所得的k个最近邻结果即可,大大缩减了索引时间。
nlist参数控制将数据集向量分为多少个维诺空间;
nprobe参数控制在多少个维诺空间的范围内进行索引。

nlist = 50
quantizer = faiss.IndexFlatL2(d) #构建索引
index = faiss.IndexIVFFlat(quantizer, d, nlist, faiss.METRIC_L2)
index.train(data)
index.add(data) #添加查询库
index.nprobe = 50
k = 10 #返回top k 的值
dis, ind = index.search(query, k)

乘积量化索引

在上述两种索引方式中,在index中都保存了完整的数据库向量,在数据量非常大的时候会占用太多内存,甚至超出内存限制。
在faiss中,当数据量非常大的时候,一般采用乘积量化方法保存原始向量的有损压缩形式,故而查询阶段返回的结果也是近似的。

nlist = 50
m = 8
k = 10
quantizer = faiss.IndexFlatL2(d)
index = faiss.IndexIVFPQ(quantizer, d, nlist, m, 4) #每个子向量被编码为4bits
index.train(data)
index.add(data)
index.nprobe = 50
dis, ind = index.search(query, k)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值