借助 Amazon Bedrock 构建 AI 漫画视频生成器

最新推荐文章于 2025-02-19 12:44:01 发布

李白的好朋友

最新推荐文章于 2025-02-19 12:44:01 发布

阅读量1.5k

点赞数 30

文章标签： aws 亚马逊云科技科技人工智能 re:Invent 2023 生成式AI 云服务

本文链接：https://blog.csdn.net/goandstop25/article/details/135090566

版权

关键字: [Amazon Web Services re:Invent 2023, Amazon Polly, Comic Video Generator, Story Script Generator, Image Generator, Character Inconsistency, Out Of Focus Images, Fine Tuning Stable Diffusion]

本文字数: 1800, 阅读完需: 9 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1mc411m7nB

导读

了解 Amazon Machine Learning Hero Agustinus Nalwan 是如何创建一款由人工智能驱动的睡前故事机 Owly，来用于制作带有音乐的个性化漫画视频。在本讲座中，您将了解如何使用 Amazon Bedrock 大型语言模型生成漫画脚本。了解如何在 Amazon SageMaker JumpStart 的帮助下对稳定扩散模型进行微调，以消除角色的不一致性，并以孩子们心爱的玩具为主角制作个性化的漫画视频。深入学习提示工程技术，学习如何使用稳定扩散模型将两幅图像融合在一起。

演讲精华

以下是小编为您整理的本次演讲的精华，共1500字，阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

演讲者满怀热情地向观众介绍自己，作为一名热衷于运用技术和人工智能创作出有趣项目的人。特别是在他的儿子Dexie身上，他投入了大量的时间和精力。这段旅程始于六年前，当时他的妻子怀孕，他们根据各种迹象确信将要迎来一个女婴。为此，他们花费了无数小时进行头脑风暴，讨论并争论着心仪的女孩名字，最终列出了50多个选项，如Hayley、Sophie和Lucy。然而，令他们惊讶的是，20周时的一次超声波检查结果显示，他们即将迎接的是一个男孩！这意味着他们不得不重新开始整个命名过程。

在一个宁静的周六早晨，演讲者决定尝试使用AI来生成一个原创名字。他在网上查找了大量的日本和俄罗斯名字，并尝试使用一个混合这些名字的模型。然而，生成的奇怪名字Vladiko Honda Petrov可能让孩子在未来遭受欺凌，所以这个实验并未成功。

直到2020年12月，Dexie出生，真正的欢乐开始了。演讲者分享了如何享受与Dexie一起玩游戏的机会，尽管后者还无法掌控那些具有多个按钮和摇杆的复杂控制器。为了给他的小儿子带来游戏体验，演讲者决心研究出一个解决方案。这导致了一个名为“Project Ring”的项目诞生，该项目包含一个能够实时追踪Dexie全身动作的相机，将其转化为3D游戏世界中的飞鸟控制。演讲者已经将一个游戏引擎改造，并与他用简单的网络摄像头和OpenCV自制的手势捕捉系统集成了起来。如今，当Dexie看到屏幕上准确地模拟他自己的拍动翅膀动作的鸟时，他会完全沉浸其中，快乐地玩耍数小时。演讲者在向他的儿子展示科技的奇迹和AI的魅力。

尽管演讲者已经取得了一定的成功，但他并未满足于此。接下来，他设计了一个特别的项目，旨在帮助他的妻子Yi在早晨为上班做准备。他描述了Yi是如何经常站在满柜子的衬衫、裙子、裤子和鞋子面前，向他提问“我今天应该穿什么？”这个问题让他感到困惑，因为他的简约时尚观念通常只包括简单的T恤和牛仔裤。由于缺乏为妻子提供合适建议的风格直觉（她有大量的职业服装选择），他知道他需要找到一个解决这个日常困境的方法。

为了解决这个问题，他开发了一个名为Project F的人工智能时尚助手。这个系统通过设置在面向门口摄像头，捕捉到Yi每天早晨离开家的画面。使用亚马逊Rekognition构建的定制面部识别软件可以在图像中识别她并记录她的装束的精确细节。同时，从外部API获取的天气数据被记录在MySQL数据库中。Yi然后可以通过演讲者使用React Native构建的移动应用程序浏览这个数字时尚日历。

通过一些聪明的AI算法分析天气模式、服装特点和颜色趋势，该应用程序实际上可以每天为Yi推荐最佳的服装搭配。演讲者使用TensorFlow训练着装搭配模型，收集图像、天气数据和Yi的时尚偏好。

此外，演讲者在2020年12月开始了他最近也是最雄心勃勃的项目，他将其称为Project Ellie。在这个项目的背景下，他们的城市正处于COVID-19封锁期间，封锁已经持续了264天，这是澳大利亚最长的封锁时间。在这种情况下，人们感到沮丧和压力重重，因为无处可去，几乎没有什么事情可做。

为了应对这种困境，现在4岁的Dexie有一个最喜欢的玩具熊，一只名叫Ella的泰迪熊。演讲者利用一个相同的备用熊，开始着手改造它，使其成为一个机器人AI伴侣。他在它的眼睛中安装了一个摄像头，在肚子中安装了一个扬声器和Raspberry Pi迷你计算机，并通过Arduino板驱动的4个伺服电机来移动头部。但真正的核心是一个类似于GPT-3的大型语言模型，运行在Amazon EC2实例上，实现了非常自然的对话。

在德国的一次偶然相遇中，德西遇到了一只名叫艾莉的熊，令他惊讶的是，这只熊竟然能用流畅且类似人类的方式回应他。演讲者播放了一段德西与熊艾莉聊天的简短视频，展示了令人难以置信的效果。这个自然语言处理模型是通过在对话数据上进行训练来提高其对话能力。

在回顾过去取得的成就之后，演讲者进入了他在2022年的最新追求——开发一个能自动生成2分钟个性化漫画视频的AI系统，专为5岁的德西讲述有趣的睡前故事。他曾亲自创作过包含道德教训的原创故事，但在连续即兴讲述故事约6个月后，他的创意枯竭了。

该项目的主要目标是创建包含德西自己心爱的玩具照片的定制视频，以展示故事情节，同时还包括合成的音频旁白、背景音乐和视觉效果。演讲者展示了一个名为“会飞的乌龟”的示例视频，这是艾莉根据给定的简短文本提示自动生成的。视频中包含了德西的海龟玩具在各种冒险中的画面，以及AI生成的图形。

演讲者随后提供了一份关于这个基于亚马逊云科技的自动化视频生成系统的简要概述。该系统首先接收一个短文本提示，例如“编写一个关于鲍勃企鹅欧洲之旅的2分钟故事。”然后将此文本输入到一个使用Anthropic的Claude（亚马逊Bedrock ML服务中强大的大型语言模型）构建的故事脚本生成器中，以创建一个完整的700字故事，分为5个部分。

这些段落被提取出来，每个段落都发送到一个专门的漫画图像生成器，即运行在亚马逊SageMaker上的Stable Diffusion 2.1，以根据场景描述找到相关的图像。同时，整个旁白通过Amazon Polly合成类似人类的音频。Claude会根据故事中的关键词从提供的列表中选择适当的音乐风格，包括轻快、戏剧性、轻松等。最后，一切都被整合成一个连贯的MP4视频文件，使用Python库MoviePy并保存在一个S3存储桶中。

尽管初步实施取得了一定的成果，但演讲者面临着两个主要挑战：

在不同段落中，企鹅主角的存在一致性出现了矛盾。这是由于在生成图像时，没有考虑到之前的上下文，而是独立地进行生成。当段落包含多种观点时，图像会变得模糊不清。为了解决这个问题，对图像生成器进行了改进，为每个段落提供一个简短的概括语句，以便描述场景。这样，图像生成器只需使用这个聚焦的句子作为上下文，就能在所有五个场景中正确呈现企鹅形象。

针对模糊图像的问题，采用了名为微调的技术。这包括将5-10张标注为“鲍勃企鹅”（主角）的示例图像提供给在SageMaker上运行的Stable Diffusion模型。将这些图像识别为描绘角色“鲍勃企鹅”有效地教会了模型鲍勃独特的视觉特征。因此，模型能够可靠地生成任何场景中正确的企鹅的清晰、聚焦的图像。

为了展示微调的强大功能，演示了一个例子，即仅在3张标注为“小鸡”的婴儿图像上训练Stable Diffusion模型，就能生成具有羽毛和喙等雏鸡特征的猫图像。这表明混合概念的潜力是无限的，只受想象力的限制。

演讲者接着详细介绍了如何使用亚马逊云科技服务，如S3、Bedrock、SageMaker、Polly和Batch来构建端到端的复杂系统，以实现自动整合一切。最后，演讲者强调了新一代的生成性AI如何以前所未有的方式创造令人愉快的项目。亚马逊云科技的最新的AI服务和模型使得即使对非工程师来说，构建这些系统也变得出人意料地容易获取。随着自然语言处理、计算机视觉和云计算的快速发展，演讲者鼓励观众开始利用这些技术，他们自己来构建梦想中的生成性AI应用！

下面是一些演讲现场的精彩瞬间：

领导请求观众们举手，以了解有多少人是从事数据科学、软件开发和熟悉GPT等AI系统工作的专业人士。

领导要求AI助手为其创作的故事选择合适的音乐风格。

领导强调了Amazon Jumpstart如何使得用户在没有昂贵训练或深入数据科学知识的情况下，也能利用Stable Diffusion生成稳定的图像。

领导展示了如何通过Amazon SageMaker Studio运行用于图像生成的Stable Diffusion模型的代码。

领导指出了一段关于一只名叫Bob的企鹅的文字描述中，AI图像生成的人物存在不一致的问题。

Bob这只企鹅梦想着去欧洲旅行并规划行程，但在长段落中的多个焦点上，图像生成器感到困惑。

领导鼓励观众们积极参与提问，并提供麦克风以便大家提问。

总结

演讲者分享了他是如何利用人工智能为小儿子创造有趣和个性化体验的。首先，他开始制作简单的项目，如由身体动作控制的运动捕捉游戏。接着，他为妻子创建了一个基于天气数据的AI时尚助手，用于推荐服装。他的最具雄心的项目是将他儿子最喜欢的填充玩具改造成名为Ellie的机器人泰迪熊，它具有移动、观看、聆听和与AI进行自然对话的能力。在封锁期间，Ellie为他儿子提供了非常需要的娱乐。

在讲了数月的睡前故事之后，演讲者寻求一个更可持续的解决方案。他使用了亚马逊的服务，如Polly和SageMaker，构建了一个AI漫画视频生成器。该生成器能根据给定的故事标题和他的儿子的玩具照片，自动生成带有旁白的音乐视频来讲述故事。

为了实现这一目标，他们使用了大型语言模型的故事脚本生成器和Stable Diffusion的图像生成器。通过对特定玩具进行微调，图像模型可以在整个故事中保持一致地生成相同的玩具角色。演讲者展示了一些令人愉悦的艾丽奇幻视频示例。

总的来说，演讲者展示了当今的AI技术使得任何人都能轻松地在家中创作创意和个性化的体验。他鼓励观众尝试创建自己的AI项目。

演讲原文

https://blog.csdn.net/just2gooo/article/details/135090542

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键查看 re:Invent 2023 所有热门发布

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。