《Milvus Cloud向量数据库指南》——文本数据如何选择合适的 Embedding 模型？

ModaHub魔搭社区

于 2024-07-29 09:21:02 发布

阅读量545

点赞数 8

文章标签： milvus embedding 人工智能 Milvus Cloud 维格云低代码

LCHub

本文链接：https://blog.csdn.net/qinglingye/article/details/140749885

版权

文本数据：MTEB 排行榜

HuggingFace 的 MTEB leaderboard 是一个一站式的文本 Embedding 模型榜！您可以了解每个模型的平均性能。

您可以将“Retrieval Average”列进行降序排序，因为这最符合向量搜索的任务。然后，寻找排名最高、占内存最小的模型。

Embedding 向量维度是向量的长度，即 f(x)=y 中的 y，模型将输出此结果。
最大 Token 数是输入文本块的长度，即 f(x)=y 中的 x ，您可以输入到模型中。

除了通过 Retrieval 任务排序外，您还可以根据以下条件进行过滤：

语言：支持法语、英语、中文、波兰语。（例如：task=retrieval,

Language=chinese）
法律领域文本。

（例如：task=retrieval，Language=law）

值得注意的是，由于部分训练数据最近才得以公开，一些 MTEB 上的 Embedding 模型可能是看似合适但实际不合适的模型，排名虚高&#

最低0.47元/天解锁文章

ModaHub魔搭社区

关注

8
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Milvus Cloud向量数据库指南》——文本数据如何选择合适的 Embedding 模型？

例如，在 voyage-lite-02-instruct 模型卡片上，您会看到其他的 VoyageAI 模型列出，但不包括这个。在下面的截图中，我会尝试来自 Snowflake 的新模型“snowflake-arctic-embed-1”，因为它排名较高，体积小到足以在我的笔记本电脑上运行，并且模型卡片上有博客和论文的链接。最大 Token 数是输入文本块的长度，即 f(x)=y 中的 x ，您可以输入到模型中。Embedding 向量维度是向量的长度，即 f(x)=y 中的 y，模型将输出此结果。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ModaHub魔搭社区 共建低代码生态

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。