揭开 ScaNN 的神秘面纱：高效的向量相似性搜索

TensorFlow 社区

于 2021-06-23 09:53:32 发布

阅读量1.4k

点赞数

分类专栏： TensorFlow 文章标签： tensorflow 推荐系统机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tensorflowforum/article/details/117957346

版权

本文介绍了Google Research团队开源的ScaNN库，它使用各向异性向量量化技术解决了大规模向量相似性搜索的挑战，提高了在机器学习中寻找最接近嵌入向量的速度和准确性。ScaNN在保持高精度的同时，性能比其他库快两倍。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文 / 软件工程师 Philip Sun，Google Research

人们要从大量的文学作品中进行搜索，一般需要使用与标题、作者或其他易于机器索引的标准完全匹配的查询条件。那么使用 SQL 等语言的关系型数据库可以轻松完成此类任务。

但是，如果想要查询如 ‘内战期间的诗歌’ 这类比较抽象的内容，就无法再依赖如对比短语之间共同单词数量等简单的 相似性指标。如，“科幻小说 (Science Fiction)”与“未来 (Future)”的关系比与“地球科学 (Earth Science)”的关系更紧密，尽管，后者有一个相同单词 Science，而前者没有。

机器学习 (ML) 极大地提高了计算机理解语言语义以及响应这些抽象查询的能力。现代 ML 模型可以将文本和图像等输入转换为嵌入向量，对高维向量进行训练，使更相似的输入更紧密地聚集在一起。因此，对于给定的查询，我们可以计算其嵌入向量，并找到嵌入向量与查询最接近的文学作品。通过这种方式，ML 已经将以前难以指定的抽象任务转变为严格的数学任务。

然而，计算难题依然存在：对于给定的查询嵌入向量，如何快速找到数据集中最接近的嵌入向量呢？嵌入向量集合通常太大，无法进行穷尽式搜索，并且通常嵌入向量的维数很高。这使得很难对向量本身进行修剪。

在我们的 ICML 2020 论文“

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。