Stability AI 三大图像生成模型在 Amazon Bedrock 上正式上线，开启视觉创新之旅！...

亚马逊云开发者

于 2024-09-05 19:23:29 发布

阅读量375

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4NjU5NDUxNg==&mid=2247578931&idx=1&sn=a5330a7e7a9e72decaa469f01b4e370d&chksm=ce37b9ceac6eaab2bc437bd45d3c8008d6a16666940956d6e57ef0a4d2317af064c1d8943ecf&scene=126&sessionid=0

版权

Stability AI 最新发布的三款文生图模型：Stable Image Ultra、Stable Diffusion 3 Large和 Stable Image Core 现已在 Amazon Bedrock 中正式可用。这些模型大大提升了对包含多个对象提示词（muti-subject prompts）的处理能力、图像质量和文字排版效果，可广泛应用于营销、广告、媒体、娱乐、零售等领域，快速生成高质量视觉内容。

Amazon Bedrock

扫码了解更多

Stability AI

扫码了解更多

这些模型擅长于生成令人惊艳的逼真图像，具有出色的细节、色彩和光线效果，可解决常见的挑战，如渲染真实的手部和面部。模型先进的提示理解能力使其能够解释涉及空间推理、构图和风格的复杂指令。

Amazon Bedrock 提供的三个新的 Stability AI 模型涵盖了不同使用场景：

Stable Image Ultra – 可生成极高质量的写实图像，适用于专业印刷媒体和大尺寸印刷等场景。该模型在细节渲染和写实性方面表现卓越。
Stable Diffusion 3 Large – 在图像生成速度和质量之间实现平衡，是制作网站、新闻简报和营销材料等大批量、高质量数字内容的理想之选。
Stable Image Core – 专门用于快速且经济地生成图像，非常适合在创意构思阶段快速迭代。

新模型的关键特性：

相比 Stable Diffusion XL (SDXL) ，Stable Image Ultra 和 Stable Diffusion 3 Large 的主要改进之一是生成图像中的文字质量。得益于创新的 Diffusion Transformer 架构，新模型减少了拼写和排版错误。该架构为图像和文字分别设计了两套独立的权重，但允许两种模态之间的信息流动。

Diffusion Transformer

扫码了解更多

以下是使用这些模型生成的一些图像。

Stable Image Ultra – 提示词：照片，写实风格，一名女子坐在田野中看着天空中的风筝，暴风雨的天空，细节丰富，概念艺术，复杂、专业构图。

Stable Diffusion 3 Large – 提示词：漫画风格插画，男侦探站在路灯下，黑暗城市，穿着风衣，戴着软呢帽，雨夜，霓虹灯招牌，湿漉漉的人行道上的倒影，细节丰富，氛围感十足的光影。

Stable Image Core – 提示词：专业的 3D 渲染，一只白色和橙色的运动鞋，悬浮在中心，漂浮，高质量，写实风格。

Amazon Bedrock 中 Stability AI 新模型

的应用场景

文本生成图像模型为各行业的企业带来了变革性的潜力，能够显著简化营销和广告部门的创意工作流程，为营销活动、社交媒体内容和产品模型快速生成高质量的视觉效果。通过加快创作过程，企业可以更快地响应市场趋势，缩短新产品或项目的上市时间。此外，这些模型还能在创意讨论阶段为概念提供即时的视觉呈现，激发更多创新灵感。

对于电商企业，AI 生成的图像可以帮助大规模创建多样化的产品展示和个性化营销材料。在用户体验和界面设计领域，这些工具能够快速生成线框图和原型，加快推动设计迭代过程。采用文本生成图像模型可以显著节约成本、提高生产效率，并在视觉传播方面为各行业企业提供竞争优势。

以下是一些跨行业的应用场景示例：

广告与营销

Stable Image Ultra 用于奢侈品牌广告和写实的产品展示。
Stable Diffusion 3 Large 适用于高质量的产品营销图像和印刷广告。
Stable Image Core 可用于社交媒体广告视觉概念的快速 A/B 测试。

电商

Stable Image Ultra 用于高端产品定制和按需生产的商品。
Stable Diffusion 3 Large 适用于电商网站的大多数产品视觉展示。
Stable Image Core 可用于快速生成产品图片并保持商品信息的及时更新。

媒体与娱乐

Stable Image Ultra 用于超写实的主视觉设计、营销材料和游戏画面。
Stable Diffusion 3 Large 适用于环境纹理、角色设计和游戏内资产。
Stable Image Core 可用于快速原型制作和概念艺术探索。

实操：在 Amazon Bedrock 控制台

访问 Stability AI 新模型

在 Amazon Bedrock 控制台中，从导航窗格中选择"模型访问"以启用对 Stability AI 部分中三个新模型的访问。

Amazon Bedrock 控制台

扫码了解更多

现在已经获得访问权限，从导航窗格的"Playgrounds"部分选择"图像"。对于模型，我选择 Stability AI 和 Stable Image Ultra。

作为提示，输入：

A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says "Stable Image Ultra in Amazon Bedrock".

左右滑动查看完整示意

保留所有其他选项的默认值，然后选择"运行"。几秒钟后，得到了我所要求的内容。以下是生成的图像：

使用 Amazon CLI 运行

Stable Image Ultra

当仍在控制台的 Image Playgrounds 中时，选择 Playgrounds 窗口角落的三个小点，然后选择"查看 API 请求"。通过这种方式，可以看到与刚刚在控制台中所做操作等效的亚马逊云科技命令行界面（Amazon CLI）命令：

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says \\\"Stable Image Ultra in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
invoke-model-output.txt

左右滑动查看完整示意

要使用 Stable Image Core 或 Stable Diffusion 3 Large，我可以替换模型 ID。

之前的命令将图像以 Base64 格式输出到一个文本文件中的 .json 对象内。

为了通过单个命令获取图像，将输出的 .json 文件写入标准输出，并使用 jq 工具提取编码后的图像，以便可以即时解码。输出被写入 img.png 文件中。以下是完整的命令：

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says \\\"Stable Image Ultra in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
/dev/stdout | jq -r '.images[0]' | base64 --decode > img.jpg

左右滑动查看完整示意

使用 Amazon SDK 运行

Stable Image Ultra

以下是如何使用 Amazon SDK for Python（Boto3）来运行 Stable Image Ultra。这个简单的应用程序会交互式地询问文本生成图像的提示，然后调用 Amazon Bedrock 生成图像。

import base64
import boto3
import json
import os


MODEL_ID = "stability.stable-image-ultra-v1:0"


bedrock_runtime = boto3.client("bedrock-runtime", region_name="us-west-2")print("Enter a prompt for the text-to-image model:")
prompt = input()


body = {"prompt": prompt,"mode": "text-to-image"}
response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps(body))


model_response = json.loads(response["body"].read())


base64_image_data = model_response["images"][0]


i, output_dir = 1, "output"if not os.path.exists(output_dir):
    os.makedirs(output_dir)while os.path.exists(os.path.join(output_dir, f"img_{i}.png")):
    i += 1


image_data = base64.b64decode(base64_image_data)


image_path = os.path.join(output_dir, f"img_{i}.png")with open(image_path, "wb") as file:file.write(image_data)print(f"The generated image has been saved to {image_path}")
Python

左右滑动查看完整示意

该应用程序将生成的图像写入一个输出目录，如果该目录不存在则会创建它。为了不覆盖现有文件，代码会检查现有文件，以找到第一个可用的文件名，格式为 img_<数字>.png。

在亚马逊云科技文档的代码库中可以找到更多使用 Stable Diffusion 模型的示例。

亚马逊云科技文档

扫码了解更多

代码库

扫码了解更多

需要了解的事项

Stability AI三款全新模型——Stable Image Ultra、Stable Diffusion 3 Large 和 Stable Image Core 今天起在亚马逊云科技美国西部（俄勒冈州）区域内的 Amazon Bedrock 正式可用。随着此次发布，Amazon Bedrock 提供了更广泛的解决方案集，以提升您的创造力并加速内容生成工作流程。请查看 Amazon Bedrock 定价页面，了解您的使用案例的成本。

您可以在描述底层技术细节的研究论文中找到有关 Stable Diffusion 3 的更多信息。

请参阅 Amazon Bedrock 用户指南中的 Stability AI 模型部分开始使用！欢迎访问亚马逊云科技社区，了解大家如何在解决方案中使用生成式 AI，并通过深入的技术内容学习更多技术与实践。点击阅读原文了解详细产品信息，马上开始体验吧！