AI观察：有竞争力的性能，有竞争力的价格-CSDN博客

亚马逊推出了一系列与竞争对手正面交锋的模型。

新功能：亚马逊的 Nova 系列包括三种视觉语言模型（Nova Premier、Nova Pro 和 Nova Lite）、一种语言模型（Nova Micro）、一个图像生成器（Nova Canvas）和一个视频生成器（Nova Reel）。除 Nova Premier 外，其他所有模型都可以在亚马逊的 Bedrock 平台上使用，功能最强大的 Nova Premier 预计将于 2025 年初推出。此外，亚马逊计划在 2025 年初发布语音转语音模型，并在年中发布处理文本、图像、视频和音频的多模式模型。（披露：Andrew Ng 是亚马逊董事会成员。）

工作原理：Nova 模型以相对较低的价格提供有竞争力的性能。亚马逊尚未透露参数数量或模型构建细节，只是表示 Nova Pro、Lite 和 Micro 是在 200 多种语言的专有、授权、公共和开源文本、图像和视频组合上进行训练的。

• Nova Pro 与 Anthropic Claude 3.5 Sonnet、OpenAI GPT-4o 和 Google Gemini Pro 大致相当。它有一个 300,000 个 token 的输入上下文窗口，使其能够处理相对较大的视觉语言输入。Nova Pro 在遵循复杂指令 (IFEval)、总结长文本 (SQuALITY)、理解视频 (LVBench) 以及阅读和操作网站 (MM-Mind2Web) 的测试中胜过其主要竞争对手。它每秒处理 95 个 token。每百万个 token 输入/输出 0.80 美元/3.20 美元，比 GPT-4o（2.50 美元/10 美元）和 Claude 3.5 Sonnet（3 美元/15 美元）便宜得多，但比 GPT-4o（每秒 115 个 token）慢。

• Nova Lite 与 Anthropic Claude Haiku、Google Gemini 1.5 Flash 和 OpenAI GPT-4o Mini 相比毫不逊色。它针对处理速度和效率进行了优化，也有一个 300,000 个 token 输入上下文窗口。Nova Lite 在测试网页视觉理解的 VisualWebBench 上胜过 Claude 3.5 Sonnet 和 GPT-4o。它还在包括 MM-Mind2Web 和 Berkeley Function-Calling Leaderboard 在内的多模式代理任务中击败了 Claude 3.5 Haiku、GPT-4o Mini 和 Gemini 1.5 Flash。它每秒处理 157 个 token，每百万 token 输入/输出成本为 0.06 美元/0.24 美元，比 GPT-4o mini（0.15 美元/0.60 美元）、Claude 3.5 Haiku（0.80 美元/4 美元）或 Gemini 1.5 Flash（0.075 美元/0.30 美元）便宜，但比 Gemini 1.5 Flash（每秒 189 个 token）慢。

• Nova Micro 是一个纯文本模型，具有 128,000 个 token 上下文窗口。它在亚马逊报告的所有 12 项测试中都超过了 Llama 3.1 8B 和 Gemini Flash 8B，包括生成代码（HumanEval）和阅读财务文档（FinQA）。它还在检索增强生成任务（CRAG）上击败了较小的 Claude、Gemini 和 Llama 模型。它每秒处理 210 个 token（Nova 型号中延迟最低），每百万输入/输出 token 成本为 0.035 美元/0.14 美元。这比 Gemini Flash 8B（0.0375 美元/0.15 美元）和 Llama 3.1 8B（0.10 美元/0.10 美元）便宜，但比 Gemini Flash 8B（每秒 284.2 个 token）慢。

• Nova Canvas 接受最多 1,024 个字符的英语文本提示，并以任何宽高比生成高达 4.2 兆像素的图像。它还可以执行修复、修复和背景去除。它在 ImageReward（衡量人类对生成图像的偏好的指标）上表现出色，超过了 OpenAI DALL·E 3 和 Stability AI Stable Diffusion 3.5。 Nova Canvas 的价格为每张 1024x1024 像素以下的图像 0.04 美元，每张 2,048x2,048 像素以下的图像 0.08 美元。价格很难比较，因为许多竞争对手按月或按年收费，但这款产品比 DALL·E 3（每张图像 0.04 至 0.12 美元）更便宜，分辨率更高。

• Nova Reel 接受最多 512 个字符的英语提示和最多 720x1,280 像素的图像提示。它可以生成长达六秒的 720x1280 像素的视频片段。它展示了保持帧与帧之间图像一致性的卓越能力，在与排名第二的 Runway Gen-3 Alpha 的正面比较中，它以 67% 的成绩胜出。 Nova Reel 每秒输出成本为 0.08 美元，比 Runway Gen-3 Alpha（每秒 0.096 美元）和 Kling 1.5（每秒 0.12 美元）的标准月度计划便宜。

新闻背后：该公司于 2023 年 4 月推出了 Bedrock，其中包括 Stability AI 的 Stable Diffusion 用于图像生成、Anthropic 的 Claude 和 AI21 的 Jurassic-2 用于文本生成，以及自己的 Titan 模型用于文本生成和嵌入。不久之后，它添加了来自 Cohere 的语言模型以及用于代理应用程序和医疗应用程序的服务。它计划继续提供来自其他公司（包括 Anthropic）的模型，提供多种选择。

重要性：当其他人工智能巨头竞相在文本和多模态处理模型方面超越彼此时，亚马逊却相对安静。凭借 Nova，它在这些领域以及初创公司主导的图像和视频生成领域占据了强势地位。此外，它通过具有竞争力的性能、价格和速度来增强其云 AI 产品。Nova 的定价延续了去年 AI 价格的快速下降趋势。每代币价格的下降有助于使处理大量输入的 AI 代理或应用程序更加实用。例如，Django Python Web 应用程序框架的开发人员 Simon Willison 发现 Nova Lite 为他的照片库（数万张图片）生成描述的价格不到 10 美元。

我们的想法是：Nova 套件仅通过 API 提供，没有基于 Web 的用户界面。这符合亚马逊 Web 服务对开发人员的关注。对于消费者，亚马逊提供了 Rufus 购物机器人。

（本文系翻译，内容来自DeepLearning.AI，文章内容不代表本号立场）

觉得文章不错，顺手点个“点赞”、“在看”或转发给朋友们吧。