企业搭建大模型 RAG 知识库？该选哪个 Embedding 嵌入模型

最新推荐文章于 2025-04-16 11:53:30 发布

小天才学习机打游戏

最新推荐文章于 2025-04-16 11:53:30 发布

阅读量1.3k

点赞数 26

文章标签： embedding 前端大数据华为人工智能学习

本文链接：https://blog.csdn.net/m0_59164520/article/details/146326171

版权

需求：企业在搭建 RAG 知识库的时候，选择合适的 Embedding 嵌入模型很重要，Embedding 的性能决定了检索的准确性，也间接决定了大模型输出的可信度。常用模型：bge、m3e、nomic-embed-text、BCEmbedding（网易有道）。

为什么需要嵌入模型

计算机本质上只能处理数字运算，无法直接理解自然语言、文字、图片、音频等非数值形式的数据。因此，我们需要通过“向量化”操作，将这些数据转化为计算机可以理解和处理的数值形式，即映射为数学上的向量表示。这一过程通常借助嵌入模型（Embedding Model）来实现，它可以有效地捕捉数据中的语义信息和内在结构。

嵌入模型的作用在于，它不仅能够将离散的数据（如单词、图像片段或音频片段）转换为连续的低维向量，还能在向量空间中保留数据之间的语义关系。例如，在自然语言处理中，嵌入模型可以生成词向量，使得语义相似的单词在向量空间中距离更近。这种高效的表示方式使计算机能够基于这些向量进行复杂的计算与分析，从而更好地理解与处理文本、图像或声音等复杂数据。

通过嵌入模型的向量化操作，计算机不仅可以高效地处理大规模数据，还能在各种任务中（如分类、检索、生成等）展现出更强的性能和泛化能力。

嵌入模型评测

要判断一个嵌入模型的好坏，必须有一套明确的标准。通常使用 MTEB 和 C-MTEB 进行基准测试。

MTEB

Huggingface有一个MTEB（Massive Multilingual Text Embedding Benchmark）评测标准是一个业界比较公认的标准，可以作为参考。涵盖了8个嵌入任务，共58个数据集和112种语言，是目前迄今为止最全面的文本嵌入基准。

排行榜：https://huggingface.co/spaces/mteb/leaderboard
GitHub 地址：https://github.com/embeddings-benchmark/mteb

C-MTEB

C-MTEB是当前最全面的中文语义向量评测基准，涵盖6大类评测任务（检索、排序、句子相似度、推理、分类、聚类）和 35 个数据集。

C-MTEB论文：https://arxiv.org/abs/2309.07597
代码和排行榜：https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB，（网上很多地址是旧的）

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述