Nomic AI 发布开源多模态嵌入模型,多模态RAG正当时!

Nomic AI 发布开源多模态嵌入模型,多模态RAG正当时!

原创 ully AI工程化 2025年04月04日 12:04 北京

Nomic AI 近日发布了 Nomic Embed Multimodal 系列模型,这是一套开源的多模态嵌入模型,能够处理文本、图像、PDF 和图表等多种数据类型。该系列旨在提升对复杂文档的理解能力,并在视觉文档检索任务上取得了当前最佳(SOTA)性能。

图片

本次发布的核心亮点包括:

  1. 原生多模态处理:模型能直接处理图像和文本内容,无需 OCR 或预处理步骤,有效捕捉文档布局、视觉元素、图表和结构信息,解决了传统模型仅依赖提取文本而丢失关键信息的痛点。
  2. SOTA 性能:在 Vidore-v2 视觉文档检索基准测试中,ColNomic Embed Multimodal 7B 模型的 NDCG@5 得分达到 62.7,较之前的 SOTA 提升了 2.8 个百分点。同时,Nomic Embed Multimodal 7B(密集向量模型)在单向量模型中表现领先。
  3. 模型多样性:发布了 7B 参数和 3B 参数两种规模的模型,每种规模均提供 Colbert (ColNomic) 和密集向量(dense)两种变体,以适应不同应用场景的需求。
  4. 完全开源:7B 模型遵循 Apache 2.0 许可证,3B 模型遵循 Qwen 2.5 许可证,并开放了模型权重、训练代码和训练数据,推动社区发展。

Vidore-v2 Benchmark Results

从技术角度看,Nomic Embed Multimodal 的创新在于其无需 OCR 的原生多模态处理能力。传统方法通常先提取文本,忽略了 PDF 和技术文档中重要的布局、图表等视觉信号。Nomic 的模型通过统一处理文本和图像信息,能够更全面地理解文档内容。Colbert 变体特别适用于需要精细化匹配的检索任务,而密集向量模型则提供通用的语义表示。

Comparison of Document Processing Methods

该技术的应用价值主要体现在增强处理复杂文档(如包含图表、图像的 PDF 和技术报告)的 RAG(检索增强生成)系统。通过更准确地理解和检索包含视觉信息的文档片段,可以显著提升信息检索的准确性和相关性,为金融分析、科研文献回顾、技术支持等领域带来更智能的解决方案。

社区反馈显示,该模型在代码检索等场景也表现出色。开发者 Michael Jentsch 表示:"在 Java 源代码 RAG 系统测试中,nomic-embed-code 模型表现近乎完美。"

Nomic AI 此次发布的开源模型,为开发者构建下一代文档理解和多模态检索应用提供了强大的基础工具。

### Ollama 中类似 text-embedding-3 的模型 在讨论 Ollama 平台中的嵌入模型时,可以发现 `text-embedding-3` 是一种高性能的文本嵌入模型,通常用于生成高质量的向量表示以便于后续的任务如检索增强生成(RAG)。然而,在 Ollama 平台上,并未直接提供名为 `text-embedding-3` 的模型,但有一些类似的替代方案[^1]。 #### 替代模型选项 以下是几个可能作为 `text-embedding-3` 替代品的模型: 1. **nomic-embed-text** - 这是一个非常流行的选择,常被推荐为 Ollama 上的最佳嵌入模型之一。它通过高效的训练策略提供了良好的性能表现,适用于多种 NLP 应用场景,例如相似度计算和聚类分析[^3]。 2. **BGE 模型系列** - BGE (Best of Both General and Expert) 是由 Zhipu AI 开发的一组强大的预训练语言模型及其对应的嵌入版本。这些模型经过优化后可以在通用性和领域特定性之间取得平衡,因此它们也可能成为寻找高精度嵌入的理想候选对象[^2]。 3. **M3E 模型** - Moka Massive Mixed Embedding (M3E),作为一种开源中文嵌入模型,具备多模态融合特性以及支持从词级到篇章级的不同粒度表达能力。尽管主要针对中文设计,但在跨语言任务或者国际化项目中有一定潜力可挖掘。 4. **其他潜在适配器** - 用户还可以探索更多基于 Transformer 架构构建而成的新颖嵌入解决方案比如 Sentence-BERT 或者其变体形式等。这类架构往往能有效降低传统 BERT 在实际应用中存在的效率瓶颈问题同时保持较高的准确性水平[^4]。 #### 实践建议 对于希望找到与 `text-embedding-3` 功能相近的用户来说,可以根据具体需求测试上述提到的各种备选方案,并结合实验结果做出最终决定。如果目标主要是处理英文内容,则优先考虑那些已被验证过的国际知名框架所提供的工具集;而对于涉及大量本地化素材的情况,则应更加关注像 M3E 这样的区域性特色产品。 ```python import ollama # 使用 nomic-embed-text 模型获取嵌入 ollama.pull('nomic-embed-text') result = ollama.embed(model='nomic-embed-text', input='Sample Text Here') print(result) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值