2025年4月15日
Embed 4以业界领先的准确性和效率,帮助企业安全检索多模态数据,构建具有自主能力的AI应用。
核心贡献者:*Carlos Lassance, David Rau, Elliott Choi, Nils Reimers, Luke Ross, Clifton Poth, Martin Hentschel, Javi Morales, Nabila Abraham, Minghan Li, Daniel Simig, Violet Dang
今天我们正式发布Embed 4——这款最新的多模态嵌入模型为企业级AI应用提供了前沿的搜索与检索能力,对于需要理解业务场景的智能助手或代理程序而言至关重要。
Embed 4为客户带来四大核心优势:
- 顶尖的多模态处理能力:能精准快速地搜索复杂文档(如精密PDF报告和动态演示文稿),无论文档是纯文本还是包含图像、表格、图表、代码或示意图
- 突破性的上下文长度:支持生成长达128K token(约200页)的文档嵌入,适用于年度财务报告、产品手册或详细法律合同
- 领先的多语言支持:覆盖100+种语言(包括阿拉伯语、日语、韩语、法语等关键商业语言),满足跨国企业需求
- 强化行业安全特性:针对金融、医疗、制造等受监管行业的数据特性进行优化,可部署在虚拟私有云(VPC)和本地环境确保数据安全
现有嵌入模型无法原生理解复杂的多模态业务资料,迫使企业开发繁琐的数据预处理流程却仅能略微提升准确性。Embed 4从根本上解决了这个问题,让企业及其员工能高效挖掘海量不可搜索信息中隐藏的洞见。
“Hunt Club的Atlas产品帮助客户在庞大职业网络中导航并寻找人才。AI在搜索复杂候选人资料和解析杂乱数据以寻找理想匹配时至关重要。Cohere的Embed 4使我们能更精准地搜索这些资料,相比表现已很出色的Embed 3实现了47%的相对提升——这令人惊叹!”
——James Kirk,Hunt Club人工智能副总裁
为全球组织解锁多模态与多语言搜索能力
Embed 4 赋能企业搜索非结构化文档——这些文档承载着组织绝大部分重要数据。
其独特之处在于能生成复杂混合模态文档的高质量表征,且全部整合在统一向量中。
这一能力进一步助力企业构建能同时理解参考图像与文本问题的应用程序,让用户通过新型搜索模式提升工作效率。
Embed 4 在金融、医疗和制造等受监管行业表现尤为突出。除强大的通用商业知识外,该模型还针对这些行业进行了领域理解优化,使其能从以下常见文档中识别关键信息:
- 金融领域:投资者演示文稿、年度财务报告、并购尽职调查文件
- 医疗领域:病历记录、手术流程图、临床试验报告
- 制造领域:产品规格文档、维修指南、供应链计划
各行业类别数据均包含公开与专有基准测试的混合结果(详见此处)。语言覆盖英语单语、单语种多语言及跨语言多语言场景,任务类型包含纯文本和文本到PDF数据集。所有数据集性能指标均通过NDCG@10衡量。ColQwen是多向量模型,对于不支持原生图像理解的嵌入模型,所有混合模态数据集(如PDF/PPT)在嵌入前均经过多模态生成模型解析。
语言不应成为信息获取的障碍。Embed 4 在100多种语言理解(包括阿拉伯语、法语、日语和韩语等)方面处于领先地位,并能实现跨语言搜索,确保员工无论数据存储语言或个人使用语言如何,都能找到关键信息。
各语言类别数据均包含公开与专有基准测试的混合结果(详见此处)。任务涵盖单语言到跨语言场景(如英语作为查询语言,对应单语种非英语作为语料库)。所有数据集性能指标均通过NDCG@10衡量。
商业数据往往存在缺陷——拼写错误、格式问题或页面方向错乱等情况时有发生。为确保这些问题不影响搜索准确性,Embed 4 专门针对真实场景的噪声数据进行了鲁棒性训练,同时在扫描文档和手写体搜索方面表现优异。这些格式常见于法律文书、保险发票和费用收据中。该能力省去了复杂的数据准备或预处理流程,为企业节省时间与运营成本。
“Agora是一款AI搜索引擎,可轻松一站式搜索35,000家在线商店。Embed 4精准匹配搜索查询与相关产品的能力令我们惊叹。电商数据包含图像和多维度文本描述,复杂度极高。通过统一嵌入表征产品,我们的搜索速度更快,内部工具效率也显著提升。” —— Param Jaggi, 创始人, Agora
企业级AI代理应用的关键基础
AI系统必须理解其运行环境才能发挥作用。企业部署的AI助手通过检索增强生成(RAG)技术实现这一目标。
本质上,驱动对话体验的生成式AI模型(如Command A)会连接企业专有信息的搜索引擎,在响应用户问题前获取相关信息。这种方式既提升了回答质量,又减少了幻觉现象。
Embed 4是企业级AI助手和代理的理想搜索引擎。除了对各种数据类型保持高准确度外,该模型还具备企业级效率,可扩展满足大型组织的需求。
鉴于高数据存储成本会降低技术投资回报率,我们特别设计了Embed 4输出压缩嵌入向量,帮助企业在保持搜索精度的同时节省高达83%的存储成本。
压缩技术可应用于向量精度格式(二进制、int8和fp32)和向量维度。所有数据集性能指标均通过NDCG@10衡量。
我们期待企业将Embed 4作为搜索检索管道的基础,驱动跨行业的下一代AI应用。
Embed 4还能与我们的安全AI代理平台North无缝集成,为Compass端到端搜索系统中的语义搜索功能提供支持。
垂直整合的技术栈使企业能够:将数据无缝接入工作工具、构建满足独特需求的定制AI代理、在私有环境的安全防火墙后保持数据控制权。
Embed 4 今日正式发布
Embed 4 现已登陆 Cohere 平台 和 Microsoft Azure AI Foundry。
"我们正通过将 Cohere 最新的两款企业级模型——Embed 4 和 Command A——引入 Azure AI Foundry 来深化双方合作。这些尖端模型能实现强大、高效且安全的 AI 解决方案。
尤为关键的是,我们期待看到这些模型如何增强智能代理能力:将响应锚定在高度情境化的数据中——这是构建可靠、可观测且能自主行动并交付企业级性能的 AI 代理的核心。" - Asha Sharma,AI 平台产品副总裁
Embed 4 同时已在 Amazon SageMaker 上线,并支持私有化部署至任意 VPC 或本地环境。了解更多信息,请联系我们的销售团队或查阅开发者文档中的技术细节。