《向量数据库指南》——如何评估 Embedding 模型

ModaHub魔搭社区

于 2024-09-09 10:41:05 发布

阅读量80

点赞数

分类专栏：《向量数据库指南》文章标签：数据库 embedding 低代码 Milvus Cloud 人工智能 RAG

LCHub

本文链接：https://blog.csdn.net/qinglingye/article/details/142052794

版权

《向量数据库指南》专栏收录该内容

537 篇文章 56 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

01.

简介

在此前发布的文章（https://zilliz.com/learn/sparse-and-dense-embeddings）中，我们探析了当前稠密 Embedding 模型的架构，并介绍了 sentence-transformers 库的一些基础用法。虽然通过 sentence-transformers 可以使用众多预训练模型，但这些模型几乎都采用了与原始 SBERT 模型相同的架构——在 transformer 编码器上进行汇总特征的训练，并使用掩码语言模型（Masked Language Modeling，MLM）。

从构建应用的角度出发，选择一个合适的文本 Embedding 模型至关重要。这种选择通常依赖于应用的具体需求。本文将探讨选择模型时需要考虑的一些关键因素。同时，我们还将介绍如何使用 Arize Phoenix 和 Ragas 来评估不同的文本 Embedding 模型。

02.

考量因素

现在，大多数应用都在使用 OpenAI 的

了解本专栏

超级会员免费看

ModaHub魔搭社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
《向量数据库指南》——如何评估 Embedding 模型

相反，在公司有限的法律或财务文档库中进行语义搜索这类应用，通常追求高准确性，因此，选择一个更大的模型才是更明智的选择。在医疗诊断、法律文件分析或为特定产品提供技术支持等应用中，特定领域的模型能够更深入地理解相应领域使用的专业语言，显著优于通用模型。因此，对于问答、语言翻译或情感分析等更复杂的任务，我们需要选择能捕捉到内容细微差异的模型。对于 IMDB 数据集，我们也可以采用类似的方法，将所有数据集的向量保存在一个向量数据库中，创建一些样本问题，并按照之前同样的流程插入数据并执行搜索。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ModaHub魔搭社区 共建低代码生态

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。