Jina AI 的开源向量索引产品 AnnLite 的核心近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰富的功能(例如支持前置过滤近似查询)。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值,我们对 HNSW 算法进行了改进和优化。
10 月 26 日晚 7:00,我们邀请到了负责本优化项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改进与优化》。
作者介绍
叶坚白 Jina AI 开源社区 AnnLite 贡献者,本硕就读于中国科学技术大学大数据学院。
分享项目简介
项目名称:近似最近邻搜索算法 HNSW 的改进与优化
项目描述:针对海量向量数据的搜索,无论是工业界还是学术界都做了大量的研究。由于精确的向量搜索在海量数据的场景下搜索时间过长,所以目前的常见做法,是在向量上建立近似搜索索引。学术上我们称之为近似最近邻搜索 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过牺牲搜索精度来换取时间和空间的方式,从大量样本中获取最近邻。</