搭建RAG应用，Embedding模型如何选？

最新推荐文章于 2025-04-04 21:56:46 发布

程序员笑武

最新推荐文章于 2025-04-04 21:56:46 发布

阅读量2k

点赞数 11

文章标签： embedding 人工智能 python langchain 网络 gpt 音视频

本文链接：https://blog.csdn.net/m0_59164304/article/details/145123067

版权

在搭建RAG系统时，选择合适的Embedding模型是至关重要的一步，下面是我对选择Embedding模型时需要考虑的关键因素和建议，供您参考：

明确应用场景

首先，需要明确RAG系统的具体应用场景和需求。例如，是处理文本数据、图像数据还是多模态数据？不同的数据类型可能需要不同的Embedding模型。例如，对于文本数据，可以参考HuggingFace的MTEB（Massive Text Embedding Benchmark：衡量文本嵌入模型的评估指标合集）排行榜来选择适合的模型，或者上国内的魔搭社区看下排行榜。

通用与特定领域需求

其次，根据任务的通用性或特定性选择模型。如果您要实现的任务较为通用，不涉及太多领域的专业知识，可以选择通用的Embedding模型；如果任务涉及特定领域（如法律、医疗等、教育、金融等），则需要选择更适合该领域的模型。

多语言需求

如果您的系统中的知识库内容存在，需要支持多种语言，可以选择多语言Embedding模型，如BAAI/bge-M3、bce_embedding（中英）等，这些模型在多语言环境下表现较好。如果您的知识库中主要包含的都是中文数据，可以选择 iic/nlp_gte_sentence-embedding_chinese-base 等模型效果会更好。

性能评估

查看MTEB排行榜等基准测试框架评估不同模型的性能，这些排行榜覆盖了多种语言和任务类型，可以帮助你找到在特定任务上表现最佳的模型。其次需考虑模型的规模和资源限制，较大的模型可能提供更高的性能，但也会增加计算成本和内存需求。另外，较大的嵌入维度通常能提供更丰富的语义信息，但也可能导致更高的计算成本。因此，大家需要根据实际硬件资源和性能需求权衡选择。

实际测试与验证

最后，有条件的话，可以选择2-3个模型进行效果对比，在实际业务场景中测试和验证所选模型的性能，观察准确率和召回率等指标评估模型在特定数据集上的表现，并根据结果进行调整。

Embedding模型推荐

以下是5个主流的Embedding模型，推荐给大家用于搭建RAG系统做参考：

BGE Embedding：由智源研究院开发，支持多语言，提供多个版本，包括高效的reranker。该模型开源且许可宽松，适用于检索、分类、聚类等任务。

GTE Embedding：由阿里巴巴达摩院推出，基于BERT框架，适用于信息检索和语义相似性判断等场景，性能卓越。

Jina Embedding：由Jina AI的Finetuner团队打造，基于Linnaeus-Clean数据集训练，适用于信息检索和语义相似性判断，性能出众。

Conan-Embedding：这是一个针对中文优化的Embedding模型，在C-MTEB上达到了SOTA（State-of-the-Art）水平，特别适合需要高精度中文语义表示的RAG系统。

text-embedding-ada-002：由Xenova团队开发，与Hugging Face库兼容，提供高质量的文本向量表示，适用于多种NLP任务。

当然，还有Sentence-BERT、E5-embedding、Instructor等等，这些模型在不同的场景下表现情况也会有些差异，可以根据您具体需求和我上面列举的考虑因素，选择合适自己的模型来构建RAG系统。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述