一文看懂亚马逊最新自研大模型Nova系列及场景化应用（上篇）

本文链接：https://blog.csdn.net/m0_66628975/article/details/145218525

2024年12月3日美国拉斯维加斯的一年一度的“云计算春晚” - 亚马逊云科技re:Invent 2024大会上，亚马逊首席执行官Andy Jassy宣布亚马逊推出一款自研全新的生成式AI基础模型，名字叫“Amazon Nova”。这款全新发布的系列模型可以用于生成文本、图像和视频等多种场景，无论是分析复杂的文档和视频、理解图表和数据可视化、生成引人入胜的视频内容，还是构建高度智能的 AI Agent，Amazon Nova系列都能为企业、独立开发者业务需求提供对应的AI模型。

本系列模型在MMLU, DROP, MATH, GSM8k和BBH多个基准测试中表现优异，这标志了亚马逊也步入了state-of-the-art (SOTA) 模型供应商的行列。

Amazon Nova因为其极高性价比和低延迟的特点，在满足社区开发者日常需求方面有很大优势，Amazon Nova Pro每千输入/输出tokens的单位价格为$0.0008和$0.0032，成本相对于市场上其他供应商的模型降低75%。

Amazon Nova系列模型包括什么？

AI在日常场景中的应用主要有理解和内容生成，Amazon Nova系列就基于以上场景提供了两大类模型：

Amazon Nova理解模型：

支持文本、图像或视频的输入，并生成文本输出，适用于复杂文档处理和信息提取等场景。

Amazon Nova内容生成模型：

支持文本和图像输入，并生成图像或视频输出，专为高质量创意内容生成设计。

多模态理解模型：文本与视觉理解

目前Amazon Nova系列发布了三种理解模型（第四种在2025年即将推出），分别如下，旨在满足不同场景下的需求：

Amazon Nova Micro

Amazon Nova Micro是一种纯文本模型，在Amazon Nova系列中有着最低延迟的响应，和最低的成本，每千输入和输出tokens成本低至$0.00014和$0.000035，性价比之王称号坐实无疑了，极其适合社区开发者来使用。在上下文理解方面，支持128K tokens的上下文长度，针对速度和成本进行了优化，特别擅长处理以下任务：

• 文本摘要

• 翻译

• 内容分类

• 交互式聊天和头脑风暴

• 简单的数学推理和编程任务

同时支持通过微调和模型蒸馏提高基于定制化领域问题的准确性。

Amazon Nova Lite

Amazon Nova Lite同样拥有极低的成本，但是这是一个多模态模型！可以以闪电般的速度处理图像、视频和文本输入并生成文本输出。输入输出价格仅有$0.00006和$0.00024，这个价格能用上多模态也是十分的良心。上下文方面，支持高达300K tokens的输入上下文长度，并能够在单次请求中分析多张图像或长达30分钟的视频内容。应用场景有实时客户交互、文档分析和视觉问答任务，具有非常高的准确性。同时模型支持文本和多模态微调，可通过模型蒸馏等技术，在提供最佳质量和成本之间获取平衡。

Amazon Nova Pro

下面介绍的模型将会是大家在业务场景中使用最多的。Amazon Nova Pro是目前Nova家族里功能最强大的多模态模型，在准确性、速度和成本之间实现最佳平衡，适用于广泛的任务。上下文方面，支持高达 300K tokens 的输入上下文长度，在多模态和需要调用API或工具来完成复杂工作流的Agent场景下极其适用。在各项主流基准测试（如文本视觉问答 [TextVQA] 和视频理解 [VATEX]）中表现十分优秀。擅长处理视觉和文本信息，尤其在分析金融文档方面表现出色。同时适用于代码场景，可处理超过一万五千行代码的代码库，可作为教师模型定制蒸馏上面介绍的Amazon Nova Micro和Lite模型。

Amazon Nova Premier

是Nova家族中的”最强杀器“，系列理功能最强大的多模态模型，专为复杂推理任务设计，也是定制模型蒸馏的最佳教师模型。但是目前当前仍在训练中，预计将于2025 年初上线。

Nova的理解能力可以用在哪些场景？

Amazon Nova 的理解模型在以下领域表现尤为出色：检索增强生成（RAG）、多场景下的API函数调用、代理型应用。其RAG的能力在多个基准测中Comprehensive RAG Benchmark（CRAG）、Berkeley Function Calling Leaderboard（BFCL）、VisualWebBench、Mind2Web表现都非常出色。

Amazon Nova的一大亮点是其卓越的定制化能力，可以根据开发者们的特定需求调整模型表现。就像大家去定制西装：我们通常先会买一件优质的品牌西装，然后根据我们身材、尺寸进行细微剪裁。我们可以通过特定领域的文本、图像和视频对Amazon Nova模型进行微调，使其能够理解特定领域的术语、符合我们的语言风格，并根据我们的场景添加合适的Prompt进行优化。例如，法律公司可以通过定制化Amazon Nova，使其更好地理解法律术语和法律文书。

图片和视频内容生成模型：让理想成为现实！

除了上述介绍的4款理解模型外，Amazon Nova系列模型家族还包括两款图片和视频内容生成模型：

Amazon Nova Canvas

Amazon Nova Canvas是Nova家族里的图像生成模型，能够生成非常真实、高质量的图像（下图就是小李哥之前自己拿Canvas生成的海报），同时大家可以调整参数和提示词精准控制生成风格和内容。

同时Canvas支持自然语言图像的编辑功能，如图像修复（inpainting）、图像扩展（outpainting）和背景移除。在人工评测和主流的图像生成基准测试中表现非常出色（如TIFA 和 ImageReward）。

Amazon Nova Reel

本文介绍的最后一个模型，就是用语视频生成的模型-Amazon Nova Reel。通过Amazon Nova Reel，各位开发者们可以将文本提示和图像作为输入，通过该模型生成短视频，并对视觉风格和节奏进行控制，该模型适用于营销、广告和娱乐领域的专业级视频内容生成。在人工评估的质量和内容表现上优于现有模型。

所有Amazon Nova模型均内置了输出内容安全控制机制，而视频和图片生成模型还支持水印功能，保证大家使用的亚马逊生成式AI模型都是负责任的。下图就是用Reel生成的视频截图，美食主题的意大利小镇，是不是特别有创意且逼真。