你的BGE模型用对了吗？

快乐的打字员

已于 2024-02-23 09:30:13 修改

阅读量2.1k

点赞数

分类专栏： LLM 分享文章标签： RAG BGE embedding 知识库语言模型

于 2024-01-13 16:48:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haohaizijhz/article/details/135571607

版权

LLM 同时被 2 个专栏收录

16 篇文章 ¥9.90 ¥99.00

订阅专栏

19 篇文章

订阅专栏

本文介绍了BGE模型在RAG场景中的应用，强调了embedding模型需要指令、关注分数排序而非绝对值以及reranker的重要性。使用BGE时，应在查询中添加指令以提高效果，注意相似度分数的排序意义，以及根据需求考虑是否使用reranker进行文档重排。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

众所周知Embedding模型可以将任何文本映射到低维密集向量，该向量可用于检索、分类、聚类或语义搜索等任务，也可以用于LLM的矢量数据库。

智源研究院开源的BGE(BAAI general embedding)模型已经屠榜多时了，且有力推动了知识库检索、聚类、分类等多种下游场景的发展。尤其是在大模型可快速落地的RAG(Retrieval Augmented Generation检索增强生成)场景，用好它显得尤为重要。但不同于其他类似的通用embedding模型，如果有些注意事项被忽视了，可能会使最终效果打些折扣。以下是实际应用BGE时应注意的3个要点。

1、embedding模型也需要指令了？

如果需要搜索与查询相关的段落，建议在查询中添加指令。项目官网建议在RAG场景，对短查询加上指令来获得其向量表示。通俗解释就是：在使用一个“短查询/问题”从知识库中查取相关的长文本时，建议给短查询加上指令。加粗提示：决定是否要加指令的最好办法是在具体任务下比较加和不加的表现。在所有场景下，都没有必要对文档、段落等长文本添加指令。代码示例如下：

from sentence_transformers import SentenceTransformer
queries = [&

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

快乐的打字员 谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。