【亚马逊云科技】一文带你了解 Amazon Nova 基础模型的超强性能表现-CSDN博客

本文链接：https://blog.csdn.net/qq_45392321/article/details/144279305

文章目录

一图看懂：五项修炼，破局生成式AI应用构建

图 Amazon Nova系列模型

我们提出亚马逊Nova，新一代最先进的基础模型，提供前沿的智能和行业领先的价格表现。亚马逊Nova Pro是一款功能强大的多模式模型，具有精度，速度和成本的最佳组合，适用于各种任务。Amazon Nova Lite是一款低成本的多模式模式，在处理图像、视频、文档和文本方面速度极快。Amazon Nova Micro是一个纯文本模型，它以非常低的成本提供我们最低延迟的响应。Amazon Nova Canvas是一个图像生成模型，可以创建具有丰富自定义控件的专业级图像。亚马逊Nova Reel是一个视频生成模型，提供高质量的输出，定制和运动控制。我们的模型是负责任的，并承诺客户的信任，安全性和可靠性。我们报告了核心能力、代理性能、长上下文、功能适应性、运行时性能和人员评估的基准测试结果。 ——摘自《The Amazon Nova family of models: Technical report and model card》

一、什么是Amazon Nova?

推出 Amazon Nova

图给Amazon Nova提示：一只坐在茶杯里的恐龙

Amazon Nova 是新一代最先进的（SOTA）基础模型（FM），可提供前沿智能和行业领先的性价比，仅在 Amazon Bedrock 上提供。

Amazon Nova Micro、Amazon Nova Lite 和 Amazon Nova Pro 是最先进的模型，可提供前沿的智能和行业领先的性价比。

Amazon Nova Micro 是一种纯文本模型，能够以非常低的成本提供最低的延迟响应。
Amazon Nova Lite 是一种成本非常低的多模态模型，它能以闪电般的速度处理图像、视频和文本输入以生成文本输出。
Amazon Nova Pro 是一种功能强大的多模式模型，具有适用于各种任务的准确性、速度和成本的最佳组合。

Amazon Nova 理解模型支持 200 多种语言、文本和视觉微调，并通过 Amazon Bedrock 知识库和 Bedrock 代理等功能与专有数据和应用程序轻松集成。使用适当的模型和技术（如蒸馏），您可以通过 Amazon Nova 理解模型获得满足您需求的最佳智能、延迟和成本。

二、Amazon Nova 理解模型

Amazon Nova Micro、Amazon Nova Lite 和 Amazon Nova Pro 是接受文本、图像或视频输入并生成文本输出的理解模型。它们提供了广泛的功能、准确性、速度和成本操作点选择。

跨智能类快速且经济高效的推理
最先进的文本、图像和视频理解
对文本、图像和视频输入进行微调
领先的代理和多模式检索增强生成（RAG）功能
使用 Amazon Bedrock 轻松集成到专有数据和应用程序

Amazon Nova 型号版本对比

	Amazon Nova Pro	Amazon Nova Lite	Amazon Nova micro
Model ID	amazon.nova-pro-v1:0	amazon.nova-lite-v1:0	amazon.nova-micro-v1:0
Inference Profile ID	us.amazon.nova-pro-v1:0	us.amazon.nova-lite-v1:0	us.amazon.nova-micro-v1:0
Input modalities	Text, Image, Video	Text, Image, Video	Text
Output Modalities	Text	Text	Text
Context Window	300k	300k	128k
Max Output Tokens	5k	5k	5k
Supported Languages	200+1	200+1	200+1
Regions	US East (N. Virginia)	US East (N. Virginia)	US East (N. Virginia)
Document Support	pdf, csv, doc, docx, xls, xlsx, html, txt, md	pdf, csv, doc, docx, xls, xlsx, html, txt, md	No

Amazon Nova Micro

一种纯文本模型，以非常低的成本提供 Amazon Nova 系列模型中最低的延迟响应。Amazon Nova Micro 的上下文长度为 128K 令牌，并针对速度和成本进行了优化，擅长于文本摘要、翻译、内容分类、交互式聊天和头脑风暴以及简单的数学推理和编码等任务。Amazon Nova Micro 还支持使用微调和模型蒸馏对专有数据进行自定义，以提高准确性。

Amazon Nova Lite

一种成本非常低的多模态模型，可以快速处理图像、视频和文本输入以生成文本输出。Amazon Nova Lite 可以高精度地处理实时客户交互、文档分析和可视化问答任务。该模型可处理长度高达 300K 令牌的输入，并且可以在单个请求中分析多张图像或长达 30 分钟的视频。Amazon Nova Lite 还支持文本和多模态微调，并且可以通过模型蒸馏等技术进行优化，为您的使用案例提供最佳质量和成本。

Amazon Nova Pro

一种功能强大的多模式模型，具有适用于各种任务的准确性、速度和成本的最佳组合。Amazon Nova Pro 能够处理多达 300K 的输入令牌，并为需要调用 API 和工具来完成复杂工作流的多模式智能和代理工作流设定了新标准。它在关键基准测试中实现了最先进的性能，包括视觉问答（TextVQA）和视频理解（VATEX）。Amazon Nova Pro 在处理视觉和文本信息方面表现出强大的能力，并且擅长分析财务文档。凭借 300K 令牌的输入上下文，它可以处理超过 15,000 行代码的代码库。Amazon Nova Pro 还用作教师模型，用于提炼 Amazon Nova Micro 和 Lite 的自定义变体。

Amazon Nova Premier🌟

功能最强大的多模态模型，用于复杂的推理任务，并用作提取自定义模型的最佳实践。Amazon Nova Premier 仍在培训中。计划在 2025 年初推出。

三、Amazon Nova 创意内容生成模型

Amazon Nova Canvas 和 Amazon Nova Reel 是创意内容生成模型，它们接受文本和图像输入并生成图像或视频输出。它们旨在提供可自定义的高质量图像和视频，以生成视觉内容。

最先进的图像和视频生成
控制您的视觉内容生成
自定义和编辑视觉内容的多种方法
通过水印和内容审核支持安全、负责任地使用 AI

Amazon Nova Canvas

一种最先进的图像生成模型，可生成工作室品质的图像，并精确控制样式和内容，包括丰富的编辑功能，例如修复、外绘和背景去除。

	Amazon Nova Canvas
Model Characteristics
Model ID	amazon.nova-canvas-v1:0
Input Modalities	Text, Image
Output Modalities	Image
Max Prompt Length	1024 characters
Max Output Resolution (generation tasks)	4.19 million pixels (that is, 2048x2048, 2816x1536)
Max Output Resolution (editing tasks)	Must meet all of the following:4096 pixels on its longest sideAspect ratio between 1:4 and 4:1Total pixel count of 4.19 million or smaller
Supporting Input Image Types	PNG, JPEG
Supported Languages	English
Regions	US East (N. Virginia)
Bedrock Feature Support
Invoke Model API	Yes
Fine Tuning	No
Provisioned Throughput	No

使用 Amazon Nova Pro 进行文档分析，输出按照说明生成一个结构化的决策树，在阅读文档之前可以大致了解一下文档。

Amazon Nova Reel

最先进的视频生成模型。使用 Amazon Nova Reel，您可以通过文本提示和图像制作短视频，控制视觉风格和节奏，并为营销、广告和娱乐生成专业品质的视频内容。Amazon Nova Reel 在对视频质量和视频一致性的人工评估方面优于现有模型。

借助 Amazon Nova Reel，可以使用基于文本和图像的提示生成逼真的工作室质量视频。该模型支持文本到视频的生成以及文本和图像到视频的生成。视频以 1280x720 的分辨率生成，每秒 24 帧，持续时间为 6 秒。

	Amazon Nova Reel
Model ID	amazon.nova-reel-v1:0
Input modalities	text, image
Output Modalities	video
Input Context Window Text	512 characters
Supported Languages	English
Regions	US East (N. Virginia)
Video Resolution	1280x720
Frames per second	24
Video Duration (seconds)	6
Async Invoke Model API	Yes
Invoke Model API	No
Fine Tuning	No
Provisioned Throughput	No