一文看懂亚马逊最新自研大模型Nova系列及场景化应用(上篇)

2024年12月3日美国拉斯维加斯的一年一度的“云计算春晚” - 亚马逊云科技re:Invent 2024大会上,亚马逊首席执行官Andy Jassy宣布亚马逊推出一款自研全新的生成式AI基础模型,名字叫“Amazon Nova”。这款全新发布的系列模型可以用于生成文本、图像和视频等多种场景,无论是分析复杂的文档和视频、理解图表和数据可视化、生成引人入胜的视频内容,还是构建高度智能的 AI  Agent,Amazon Nova系列都能为企业、独立开发者业务需求提供对应的AI模型。

本系列模型在MMLU, DROP, MATH, GSM8k和BBH多个基准测试中表现优异,这标志了亚马逊也步入了state-of-the-art (SOTA) 模型供应商的行列。

Amazon Nova因为其极高性价比和低延迟的特点,在满足社区开发者日常需求方面有很大优势,Amazon Nova Pro每千输入/输出tokens的单位价格为$0.0008和$0.0032,成本相对于市场上其他供应商的模型降低75%。

Amazon Nova系列模型包括什么?

AI在日常场景中的应用主要有理解和内容生成,Amazon Nova系列就基于以上场景提供了两大类模型:

Amazon Nova理解模型

支持文本、图像或视频的输入,并生成文本输出,适用于复杂文档处理和信息提取等场景。

Amazon Nova内容生成模型

支持文本和图像输入,并生成图像或视频输出,专为高质量创意内容生成设计。

多模态理解模型:文本与视觉理解

目前Amazon Nova系列发布了三种理解模型(第四种在2025年即将推出),分别如下,旨在满足不同场景下的需求:

Amazon Nova Micro

Amazon Nova Micro是一种纯文本模型,在Amazon Nova系列中有着最低延迟的响应,和最低的成本,每千输入和输出tokens成本低至$0.00014和$0.000035,性价比之王称号坐实无疑了,极其适合社区开发者来使用。在上下文理解方面,支持128K tokens的上下文长度,针对速度和成本进行了优化,特别擅长处理以下任务:

• 文本摘要

• 翻译

• 内容分类

• 交互式聊天和头脑风暴

• 简单的数学推理和编程任务

同时支持通过微调和模型蒸馏提高基于定制化领域问题的准确性。

Amazon Nova Lite

Amazon Nova Lite同样拥有极低的成本,但是这是一个多模态模型!可以以闪电般的速度处理图像、视频和文本输入并生成文本输出。输入输出价格仅有$0.00006和$0.00024,这个价格能用上多模态也是十分的良心。上下文方面,支持高达300K tokens的输入上下文长度,并能够在单次请求中分析多张图像或长达30分钟的视频内容。应用场景有实时客户交互、文档分析和视觉问答任务,具有非常高的准确性。同时模型支持文本和多模态微调,可通过模型蒸馏等技术,在提供最佳质量和成本之间获取平衡。

Amazon Nova Pro

下面介绍的模型将会是大家在业务场景中使用最多的。Amazon Nova Pro是目前Nova家族里功能最强大的多模态模型,在准确性、速度和成本之间实现最佳平衡,适用于广泛的任务。上下文方面,支持高达 300K tokens 的输入上下文长度,在多模态和需要调用API或工具来完成复杂工作流的Agent场景下极其适用。在各项主流基准测试(如文本视觉问答 [TextVQA] 和视频理解 [VATEX])中表现十分优秀。擅长处理视觉和文本信息,尤其在分析金融文档方面表现出色。同时适用于代码场景,可处理超过一万五千行代码的代码库,可作为教师模型定制蒸馏上面介绍的Amazon Nova Micro和Lite模型。

Amazon Nova Premier

是Nova家族中的”最强杀器“,系列理功能最强大的多模态模型,专为复杂推理任务设计,也是定制模型蒸馏的最佳教师模型。但是目前当前仍在训练中,预计将于2025 年初上线。

Nova的理解能力可以用在哪些场景?

Amazon Nova 的理解模型在以下领域表现尤为出色:检索增强生成(RAG)、多场景下的API函数调用、代理型应用。其RAG的能力在多个基准测中Comprehensive RAG Benchmark(CRAG)、Berkeley Function Calling Leaderboard(BFCL) 、VisualWebBench、Mind2Web表现都非常出色。

Amazon Nova的一大亮点是其卓越的定制化能力,可以根据开发者们的特定需求调整模型表现。就像大家去定制西装:我们通常先会买一件优质的品牌西装,然后根据我们身材、尺寸进行细微剪裁。我们可以通过特定领域的文本、图像和视频对Amazon Nova模型进行微调,使其能够理解特定领域的术语、符合我们的语言风格,并根据我们的场景添加合适的Prompt进行优化。例如,法律公司可以通过定制化Amazon Nova,使其更好地理解法律术语和法律文书。

图片和视频内容生成模型:让理想成为现实!

除了上述介绍的4款理解模型外,Amazon Nova系列模型家族还包括两款图片和视频内容生成模型:

Amazon Nova Canvas

Amazon Nova Canvas是Nova家族里的图像生成模型,能够生成非常真实、高质量的图像(下图就是小李哥之前自己拿Canvas生成的海报),同时大家可以调整参数和提示词精准控制生成风格和内容。

同时Canvas支持自然语言图像的编辑功能,如图像修复(inpainting)、图像扩展(outpainting) 和背景移除。在人工评测和主流的图像生成基准测试中表现非常出色(如TIFA 和 ImageReward)。

Amazon Nova Reel

本文介绍的最后一个模型,就是用语视频生成的模型-Amazon Nova Reel。通过Amazon Nova Reel,各位开发者们可以将文本提示和图像作为输入,通过该模型生成短视频,并对视觉风格和节奏进行控制,该模型适用于营销、广告和娱乐领域的专业级视频内容生成。在人工评估的质量和内容表现上优于现有模型。

所有Amazon Nova模型均内置了输出内容安全控制机制,而视频和图片生成模型还支持水印功能,保证大家使用的亚马逊生成式AI模型都是负责任的。下图就是用Reel生成的视频截图,美食主题的意大利小镇,是不是特别有创意且逼真。

以上就是亚马逊最新自研Nova系列大模型的全部介绍,在本篇中我们介绍了Amazon Nova系列大模型的基本能力和满足多样化不同理解、生成场景的6个模型。欢迎大家关注小李哥和本系列的下篇-探索Amazon Nova系列模型的真实场景化应用,不要错过未来更多国际前沿的AWS云开发/云架构方案。 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值