大模型应用落地：如何选择合适的 Embedding 模型？

泡椒凤爪面

于 2024-08-22 11:03:11 发布

阅读量298

点赞数 15

文章标签： embedding 人工智能数据结构语言模型 chatgpt 大数据

本文链接：https://blog.csdn.net/CSDN_224022/article/details/141422633

版权

背景落地

在生成式人工智能(GenAI)领域，检索增强生成(RAG)作为一种策略脱颖而出，它通过集成外部数据来扩充像 ChatGPT 这样的大型语言模型(LLM)的现有知识库。

RAG 系统核心涉及三种关键的人工智能模型组件：嵌入(Embedding)模型负责将信息转化为数学向量，重排名(Reranker)模型则用于优化搜索结果，而强大的基础语言模型确保了丰富的语境理解和生成。

本篇文章旨在指导您依据数据特性及目标领域，比如：金融专业，来挑选最合适的嵌入模型，从而最大化 RAG 系统的效能与准确性。

文本数据：MTEB 排行榜

HuggingFace 推出的 MTEB leaderboard 是一个综合性的文本嵌入模型比较平台，让您可以一览各模型的综合性能表现。

为了满足向量搜索的需求，建议优先关注“Retrieval Average”这一列，并按降序排列，以识别在检索任务中表现最优的模型。在此基础上，寻找那些内存占用小、效率高的佼佼者。

嵌入向量维度指的是模型输出向量的长度，即函数 f 将输入 x 转化为向量 y 的 y 部分，体现了模型对文本特征的编码深度。
而最大 Token 数则是模型能够处理的文本片段的最大长度，相当于函数 f中的输入 x，影响着单次请求能包含的信息量。

在筛选理想模型时，您不仅可根据检索性能排序，还能够依据特定条件进一步筛选：

语言支持：涵盖法语、英语、中文、波兰语等多语种。（示例筛选：task=retrieval, Language=chinese）
领域适应：针对法律文本的专业应用。（如：task=retrieval, Domain=law）

值得注意的是，MTEB上的排名可能因新公开的训练数据而有所偏差，某些模型的评分可能存在虚高现象。因此，参考 HuggingFace 的官方博客，学习如何辨别模型排名的真实可靠性显得尤为重要。在访问每个模型的“模型卡片”页面时，以下几个步骤至关重要：

深入探究训练详情：查找相关博客和研究论文，这些资料会详细介绍模型的训练数据、任务设定等关键信息。
留意模型来源：知名机构或公司的模型往往更值得信赖。比如：voyage-lite-02-instruct 模型的卡片缺少与其同系列其他模型的关联信息，暗示其可能存在过拟合问题，不推荐实际部署。

基于上述考量，我建议使用 Snowflake 新推出的“snowflake-arctic-embed-1”模型。该模型不仅在排名上表现抢眼，而且以其较小的体积适合在有限资源的设备上运行，此外，模型卡片提供的博客和论文链接也增加了其透明度和可信度。

图像数据：ResNet50

如果您希望查找与某张图片风格或内容相似的其他图片，比如：搜寻更多关于苏格兰折耳猫的图像资料，一种方法是上传一张该品种猫的照片，并利用图像搜索引擎去发掘类似图片。

ResNet50 作为一种广泛采纳的卷积神经网络(CNN)模型，自2015年微软基于 ImageNet 数据集的训练成果以来，便成为了图像识别领域的基石之一。

类似地，在面对视频搜索需求时，ResNet50 能够发挥作用，通过将视频分解成一系列静态帧，对每一帧应用模型以生成对应的嵌入向量。随后，基于这些向量进行相似性比对，系统能够甄选出与查询视频最为接近的视频内容，从而为用户提供高度匹配的搜索结果。

音频数据：PANNs

就如同图像搜索一样，您也能够依据提供的音频片段去探寻类似的音频内容。

PANNs（预训练音频神经网络）作为一种主流的音频检索 Embedding 模型，其优势在于它基于庞大的音频资料库进行了预先训练，对此在音频分类与标签分配等任务上展现出卓越的能力。

多模态图像与文本数据：SigLIP 或 Unum

近年来，一系列旨在对文本、图像、音频及视频等多种非结构化数据进行综合训练的 Embedding 模型应运而生。这些创新模型能够在统一的向量空间框架下，有效把握并表达不同形态的非结构数据所蕴含的深层语义信息。

多模态 Embedding 技术的发展，使得跨领域的应用如文本导向的图像检索、图像内容的自动生成描述，乃至图像间的相似性搜索成为可能，极大地拓宽了人工智能的应用范畴。

2021年，OpenAI 发布的 CLIP 作为 Embedding 模型的典范，开辟了新领域，尽管其定制化微调的需求增加了使用的复杂度。这一挑战随后在2024年迎来了转机，谷歌推出了 SigLIP（Sigmoidal-CLIP），该模型凭借在 zero-shot prompt 任务上的出色表现，显著降低了部署难度，提升了用户体验。

与此同时，轻量级的小型 LLM（语言模型）日益受到青睐。它们的吸引力在于能够摆脱对高端云计算资源的依赖，轻松实现在个人笔记本上的运行。这些“小而美”的模型，因内存占用低、响应速度快以及处理效率高的特点，正逐步改变着 AI 应用的格局。Unum 等平台更是提供了集成多模态功能的小型 Embedding 模型，进一步推动了 AI 技术的普及与应用便捷性。

多模态文本、音频、视频数据

多模态的文本-音频 RAG（检索增强的生成）系统广泛采纳了多模态生成型 LLMs。此过程启始于音频信息的文本化转换，创造音频-文本配对，继而将文本内容编码为 Embedding 形式的向量，以便利用 RAG 机制进行常规的文本查询。最终阶段涉及将检索到的文本逆向关联回相应的音频片段。

OpenAI 的 Whisper 技术在这方面起到了桥接作用，它能够实现语音到文本的高效转写。相反地，OpenAI 还开发了 Text-to-Speech（TTS）模型，完成了从文本到语音的逆向转换，丰富了多模态交互的闭环。

至于多模态文本-视频的 RAG 应用，则采取了类似的策略，先将复杂的视频内容简化为可处理的文本描述，经 Embedding 转化后执行文本查询，最后输出相关的视频片段作为检索成果。

OpenAI 的创新工具 Sora，则在文本到视频的生成领域展现了非凡能力，与 Dall-E 在图像生成领域的成就相似，Sora 仅需用户输入文本提示，即可借助强大的 LLM 生成对应的视频内容。Sora 的灵活性不仅限于文本，还能基于静态图像或现有视频进行视频的衍生创作，进一步拓展了多模态内容生成的边界。

Milvus目前已经集成了主流的Embedding模型，体验链接：https://milvus.io/docs/embeddings.md

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

路线图很大就不一一展示了 （文末领取）
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目，地址、代码、文档等等全都下载共享给大家一起学习！
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告（持续更新）👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

泡椒凤爪面

关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大模型应用落地：如何选择合适的 Embedding 模型？

在生成式人工智能(GenAI)领域，检索增强生成(RAG)作为一种策略脱颖而出，它通过集成外部数据来扩充像 ChatGPT 这样的大型语言模型(LLM)的现有知识库。RAG 系统核心涉及三种关键的人工智能模型组件：嵌入(Embedding)模型负责将信息转化为数学向量，重排名(Reranker)模型则用于优化搜索结果，而强大的基础语言模型确保了丰富的语境理解和生成。本篇文章旨在指导您依据数据特性及目标领域，比如：金融专业，来挑选最合适的嵌入模型，从而最大化 RAG 系统的效能与准确性。
复制链接

扫一扫