《向量数据库指南——将传统稀疏向量Milvus Cloud与上下文信息相结合

ModaHub魔搭社区

于 2024-07-19 09:00:00 发布

阅读量14

点赞数

分类专栏：《向量数据库指南》文章标签：人工智能机器学习深度学习 embedding Milvus Cloud 数据库

LCHub

本文链接：https://blog.csdn.net/qinglingye/article/details/140447419

版权

《向量数据库指南》同时被 2 个专栏收录

471 篇文章 54 订阅 ¥99.90 ¥99.00

订阅专栏

超级会员免费看

ModaHub魔搭社区

53 篇文章 0 订阅

订阅专栏

学习得到的稀疏向量：将传统稀疏向量与上下文信息相结合

结合 Out-of-Domain 检索的精确词匹配技术，如词袋模型和 BERT 等稠密向量检索方法进行语义检索，长期以来一直是信息检索领域的一项主要任务。幸运的是，出现了新的解决方法：学习得到的稀疏 embedding。

那么，到底什么是学习得到的稀疏 embedding 向量呢？

学习得到的稀疏 embedding 指的是通过复杂的 ML 模型（如 SPLADE 和 BGE-M3 等）生成的稀疏向量表示。与仅依赖于统计方法（如 BM25）生成的传统稀疏向量不同，学习得到的稀疏 embedding 在保留关键词搜索能力的同时，丰富了稀疏表示的上下文信息。它们能够辨识相邻或相关词语的重要性，即使这些词语在文本中没有明确出现。最终生成一种擅长捕捉相关关键词和类别的“学习得到的”稀疏表示。

以 SPLADE 为例。在编码给定文本时，SPLADE 生成的稀疏 embedding 形式为 token-to-weight 映射，例如：

  {"hello": 0.33, "world": 0.72}

乍看之下，这些 embedding 与由统计方法生成的传统稀疏 embedding 类似。然而，它们的组成有一个关键区别：维度（词汇）和权重。带有上下文化信息的机器学习模型决定了学习型稀疏 embedding

了解本专栏

超级会员免费看

ModaHub魔搭社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
《向量数据库指南——将传统稀疏向量Milvus Cloud与上下文信息相结合

与仅依赖于统计方法（如 BM25）生成的传统稀疏向量不同，学习得到的稀疏 embedding 在保留关键词搜索能力的同时，丰富了稀疏表示的上下文信息。这种稀疏表示与学习得到的上下文的结合为信息检索任务提供了一种强大的工具，无缝弥合了精确词匹配和语义理解之间的鸿沟。幸运的是，出现了新的解决方法：学习得到的稀疏 embedding。通过优先处理关键文本元素，同时舍弃不必要的细节，学习得到的稀疏 embedding 完美平衡了捕获相关信息与避免过拟合两个方面，从而增强了它们在各种检索任务中的应用价值。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ModaHub魔搭社区 共建低代码生态

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。