vearch：大规模向量相似性搜索系统的挑战与实践

本文链接：https://blog.csdn.net/Iris_6713/article/details/107344307

本文探讨了大规模图像检索任务面临的挑战，介绍Vearch——一个用于深度学习场景的分布式向量相似性搜索系统。Vearch解决了海量高维特征存储和计算问题，支持CPU与GPU，提供实时添加数据、多向量字段等功能，并在多种场景如人脸识别、拍照购中得到应用。文章还解析了Vearch的架构和性能测评。

摘要由CSDN通过智能技术生成

一、大规模图像检索任务所面临的挑战

随着深度学习技术的快速发展，它的相关应用也渗透到了我们生活的方方面面。深度学习是通过将图片、文本、视频等编码成高维特征向量来解决问题的，这就出现了海量高维特征向量的存储与计算问题，这些问题急需得到很好的解决。

人脸识别与拍照购场景
在这里插入图片描述
智能助理与娱乐场景

我们现在的生活已经被AI所包围，比如早上进办公室时，需要过人脸闸机，但就是这简单的生活场景，想一下之前传统的方案是什么样子？若有陌生人来，我们靠保安去识别时，怎么去判断准确性？即使保安熟悉天天进出的人，他也不会记忆这么多人的信息，而且对每个人的精准识别也是有限的。所以，传统的方案在应对这些场景时都是会有很大的瓶颈。然而深度学习可以利用生物特征的唯一性以及难以作假的特性。

以上这些场景，都是新的query与数据库中数据做搜索对比得到排序结果的应用。传统方案是采用人工提取特征，但是由于特征量少，无法刻画事物的唯一性，比如人脸识别过闸机场景，证件等外部性证明都容易作假，靠保安人员记忆，容貌相近的无关人员有可能乱入，还有银行卡靠账户密码转账的盗刷事件时有发生。上述杯子拍照购场景，无论搜卡通杯，还是白色陶瓷杯，还是白色卡通陶瓷杯都无法精确得到上图结果。

深度学习的出现，通过编码图片、文本、视频等的高维度信息为固定维特征向量，使事物得到精准量化表示，导致搜索结果可以高质量精准排序。比如上述人脸场景，深层网络会提取人脸的眼睛、鼻子、嘴巴、皮肤纹理等上万维特征编码成向量来唯一刻画人脸的唯一性。在智能助理外卖推荐场景，深层网络可以分别把用户画像(口味，位置距离，性别，薪资)等多个维度的信息与商家画像（菜品，菜价，评论，风格，距离）多个维度信息编码成高维特征向量，计算二者的相似度，做精准量化匹配。

但是深度学习的使用也面临新的棘手的问题
1. 海量高维特征的存储问题
2. 特征向量的相似性计算搜索问题

这两大问题，传统数据库是基于key/value的模糊查询搜索原理，无法完成
向量计算的操作。目前落地环节都是针对各自场景自己训练深度学习算法，在开发对应的向量检索系统，存在大量重复工作，这对算法工程师也不友好。目前尚没有通用的在线解决方案&#