亚马逊云科技生成式AI视觉Pipeline,成功实现LLM与视频生成模型的有效融合

 背景介绍

 Claude2

 在2023年9月底,亚马逊云科技宣布将Antrophic公司的Claude2模型纳入亚马逊云科技Amazon Bedrock服务并正式上线。作为ChatGPT-4最强有力的竞争对手,Claude2的语料库截至2023年初。其单次对话可处理高达10万个token的长文本,使其在总结归纳等涉及超长文本的任务中表现尤为突出。此外,许多影视和游戏领域的专家认为,Claude2在故事创作和角色扮演等方面展现出更加拟人化和准确的表达特点。

 ComfyUI

 ComfyUI是一个基于节点式工作流的WebUI,其核心采用了稳定扩散视频生成模型。它通过将稳定扩散的流程分解成多个节点,实现了更加精细化的流程定制和更高的结果可重用性。相比于SD WebUI,ComfyUI的节点工作流需要一定的学习曲线,因此普及程度不如前者。然而,在特定领域的项目中,ComfyUI依然显示出以下优势,并且受到了越来越多的青睐:

  • 支持json文件或者图片来共享节点工作流,提高了项目组内部的工作效率(流程+质量)

  • 由于节点内部的优化,其整体的出图速度对于SD WebUI快了10%-20%左右

  • 在超分或者出大图的情况下也不容易将显卡打爆,得到黑图

  • 主流的ControlNet,LoRA等等都已支持,缺少的模块,也可以通过custom_nodes方式安装

  • 节点式工作方式,在游戏工作室(UE蓝图背景)会有天然的亲和性

  • 由于其存储为结构化的数据结构,支持各种语言编程

 架构图

 本文将基于Amazon Cloud Service能力,利用Bedrock上面的Claude2模型作为驱动来输出关键提示词,然后输入到构建在SageMaker上的ComfyUI,最后的视频素材存储到S3上面,来实现自动生成视频的管线。

 本方案通过CloudFormation进行一件部署,主要的架构图如下,其中包含的组建有:

  • SageMaker Notebook:基于g5.2xlarge的笔记本实列,包含项目运行环境以及核心代码

  • Claud2:Amazon Bedrock LLM大模型

  • S3:存储图片和视频

  • ComfyUI:提供了节点式的界面,进行GenAI推理网站

  • Ngrok:第三方反向代理软件,方便外部访问ComfyUI

 实现步骤

 申请Ngrok Authtoken

 Ngrok是一个第三方的反向代理应用,通过安全可靠的内网穿透能力提供了较为方便的网络访问端点。在使得ComfyUI能够公开访问之前,需要去Ngrok的官方网站申请一个免费Authtoken。

 CloudFormation安装

 获取到安装模板后,需要填写如下参数:

  • StackName:CloudFormtion堆栈名字,方便管理

  • NotebookInstanceName:SageMaker笔记本的名字

  • NotebookInstanceType:SageMaker笔记本实列类型,建议g5系列

  • VolumeSizeInGB:SageMaker笔记本硬盘大小,建议300G以上

  • SageMakerIAMRole:如果留空,则会创建新的笔记本执行角色

  • DefaultCodeRepository:项目的Github地址

 等待5-10分钟后,可以在CloudFormation Outputs中,或者SageMaker中找到对应的笔记本连接:

 进去后,发现项目源码也下载好了,具体内容如下:

  • comfyui-Sagemaker-notebook.ipynb:安装和运行ComfyUI

  • comfyui-Bedrock-Claude2-notebook.ipynb:Claude2调用ComfyUI管线

  • workflows:ComfyUI生成视频管线

  • langchain_tasks:langchain模版文件

  • utils:python脚本

 安装运行ComfyUI

  • 进入/home/ec2-user/SageMaker/SageMaker-ComfyUI,打开comfyui-Sagemaker-notebook.ipynb,顺序执行脚本即可

  • 将前面获取的Ngrok的authtoken替换到对应的位置

  • 获取ComfyUI项目,安装环境依赖

  • 按需获取VAE,Checkpoints,ControlNets,Lora等等

  • 推荐安装ComfyUI的插件:comfyUI-manager,animatediff,upscaler等等

  • 运行Ngrok Agent+ComfyUI

  • 成功起来后,即可获得一个公开的访问地址(蓝色文字部分,第一次访问,可能会看到警告,可以忽略直接访问)

  • 如果想停止对外服务,停止SageMaker notebook即可

  • 如果想回收资源,找到对应的CloudFormation删除即可

 测试管线

 当ComfyUI的网站起来以后,可以做以下测试(将图片拖到ComfyUI即可使用)

 txt2img:

 txt2gif:

 可编程管线

 后面将基于下面的管线制作视频,导入ComfyUI。

 使用可编程管线之前,需要开启ComfyUI的Enable Dev mode Option模式,然后保存为API模式。

 

 Claude2安装和设置

 选择Claude2的一个重要原因:对比Claude2 Vs GPT4,关于天安门升旗仪式攻略这个问题,Claude2的答案覆盖了最重要的时间和地点,而GPT4只是一些简单文字输出,没有任何具体的数字。

 进入目录/home/ec2-user/SageMaker/SageMaker-ComfyUI,获取笔记comfyui-Bedrock-Claude2-notebook.ipynb,顺序执行脚本即可。

 测试生成短片代码,生成目录为/home/ec2-user/SageMaker/outputs/:

  •  安装Bedrock以及Claude2所需的依赖

  •  测试Amazon Bedrock是否安装成功

 提示词工程

 如果上面都通过后,接下来就可以尝试让Claude2去生成各种prompt即可。

 通过上面例子,可以看到prompt设置需要比较具体地描述业务需求。总结下来的一个比较有效的prompt工程格式为:

  • 角色描述+业务描述

  • 业务约束条件

  • 参考输出例子

  • 嵌入可替换的参数

 总结

 本文提供了一个快速搭建Claude2与ComfyUI的解决方案,通过程序化手段巧妙地将这两个LLM和视频生成模型融合,使其在实际业务场景中具备更显著的价值。

 我们欣喜地看到,Claude2具有单次可处理10万个token的强大能力,能够帮助快速解析理解各种长度的文本提示,并生成所需的高质量输出结果。基于Claude2的这些输出,可以进一步驱动ComfyUI的视频生成流程,只需要替换其中的关键参数,就可以实现个性化的视频生成。通过这个方案,成功实现了LLM与视频生成模型的有效融合,使之为实际业务带来更多可能性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一线视点

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值