7月26日,智谱Maas开放平台(bigmodel.cn)正式上线了全新的视频生成大模型CogVideoX,成为国内首个通过API完成图片和文本视频生成任务的开放平台之一。用户无需排队即可轻松使用该平台,通过简单的API调用即可生成高质量定制视频内容,节省了用户的时间和精力。

CogVideoX模型的推出,为用户提供了一个便捷、高效、智能的视频生成工具,让用户可以快速将图片和文本转化为动态视频,满足各种场景下的需求,为用户带来了全新的体验和可能性。CogVideoX模型让用户可以轻松创建各种类型的视频内容,包括个人创意作品、商业宣传片、教育培训视频等,无论是个人用户还是企业机构,都可以通过这一平台快速实现视频内容的生成和定制,满足不同需求和用途。

我们第一时间对CogVideoX的API接口进行了深入评测,对文生视频Prompt进行调优。

1.开发环境配置:

Windows10 操作系统,其它可联网环境均可。

Python版本支持:正式版python 3.11 (亲测3.8, 3.9, 3.10, 3.11, 3.12都可以)。

安装智谱Maas大模型接口 Python SD:pip install zhipuai

也可以参考官方文档安装:https://bigmodel.cn/dev/api#overview

注:调用文生图video接口,需要zhipuai sdk最新2.1.4版本,默认安装可能是2.1.0版本。可以print(zhipuai.__version__) 查看版本,如果不是,可以点击下方链接:https://github.com/MetaGLM/zhipuai-sdk-python-v4/releases/download/v2.1.4/zhipuai-2.1.4-py3-none-any.whl,下载最新whl到本地,按如下方式安装:

突发!Maas开放平台推出全新视频生成大模型,首创API调用,一手评测来了!_ide

2.1行代码完成文生视频调用:

python sdk支持通过环境变量配置APIkey,创建Client。个人的APIkey可以注册智谱Maas平台后,在bigmodel.cn/usercenter/apikeys 页面申请。

突发!Maas开放平台推出全新视频生成大模型,首创API调用,一手评测来了!_开源_02

通过调用Client对应的成员方法方式方便且快捷实现文生图功能。

突发!Maas开放平台推出全新视频生成大模型,首创API调用,一手评测来了!_开源_03

使用是异步调用的方式,调用完成会生成一个request_id,需要等待一段时间后,可以访问response状态“SUCCESS”和video_result获取生成视频。

突发!Maas开放平台推出全新视频生成大模型,首创API调用,一手评测来了!_神经网络_04

将生成视频的url拷贝复制到浏览器打开或下载到本地,就可以看到视频内容了。


小狗画图


可见通过API方式调用文生视频非常的方便,只需要3行代码就完成了整个调用。此外,Maas平台还支持HTTP调用,支持主流第三方框架入OpenAI SDK和Langchain SDK的使用方式;开发语言支持主流Python和JAVA。更多使用可以参考官方接口文档(https://open.bigmodel.cn/dev/api)和使用指南(https://open.bigmodel.cn/dev/howuse/)。

3.1行代码完成图生视频调用

与文生视频的方式类似,先调用Maas平台文生图的接口生成一些测试用例:

突发!Maas开放平台推出全新视频生成大模型,首创API调用,一手评测来了!_ide_05

生成的图片预览:

突发!Maas开放平台推出全新视频生成大模型,首创API调用,一手评测来了!_ide_06

文生图的质量还是非常高的,然后增加url调用图生视频的接口,prompt指定希望图片主体想要实现动作,一行代码就可以得到需要视频。

4.文生视频深入体验

通过调用api的方式,随机尝试了一些Prompt看看生成视频的效果,结果让我感觉非常惊艳。


狮子在海底游泳


狮子在海底潜水


小老鼠在火山口烤玉米


老鼠在火山口烤玉米


北极冰原上的考察站


极地冰原上,一座废弃科考站,远处传来极光闪烁的极光

5.图生视频深度体验

同样调用api的方式,随机生成一些图片并制定主体相关的Prompt,通过图生成一视频,效果也非常不错。


可爱的小猫


一只可爱的小猫在和打招呼


风铃摆动


挂载房檐上的风铃在随风摆动

6.文生视频Prompt调优:

通过不停地调试prompt组成,我发现prompt工程对于生成视频质量有很大的影响。通过总结,我发现一条文生视频Prompt技巧:

提⽰词(Prompt)=镜头描述+主体描述+主体运动描述+场景描述 

通过构成和调整这四个部分,可以明显提升生成视频的质量,举个例子:

Step1. 原始Prompt 镜头+主体:草原上有两头母狮


两只母狮


Prompt里面只有关于主体和镜头描述,生成视频也比较简单,就一个场景,草原上的两头狮子,相当于一张动图。

Step2. 增加主体运动描述:两头母狮在大草原上奔跑


狮子在蹦跑


生成视频比前一个版本更像一个视频,主体“狮子”奔跑起来了,也有一些场景的切换。但生成视频对主体“狮子”本身及主体运动细节描述并不清晰,导致生成视频清晰度并不高。

Step3. 增加主体细节描述及运动细节描述:两头雄壮的狮子在草原上奔跑,它们你追我赶,嘶吼着,眼睛炯炯有神,目光坚定而锐利,毛发在阳光下闪闪发光。


健壮的狮子


生成视频的质量有了明显的提升,主体“狮子”本身的细节,健硕身材描述更加清晰;对于狮子主体奔跑的刻画也更加清晰。但视频对于奔跑的场景刻画还是不够清晰,场景过于简单。

Step4. 增加场景刻画:

两头雄壮的母狮在绿草如茵的草原上奔跑,它们你追我赶,嘶吼着,眼睛炯炯有神,目光坚定而锐利,草原上有低矮的草地和高大的灌木,还有一些花朵。

,时长00:06

生成视频包含了灌木和乔木,以及一些花朵,视频的内容进一步丰富,质量进一步提升。

7.体验评测集展望

深度试用了智谱AIMaas开放平台最新的文生视频和图生视频接口,整体感觉:1. 通过API使用确实非常简单且方便;2. 文生图效果非常炸裂,文生/图生视频效果挺不错;3. 视频生成Prompt工程会直接影响生成视频效果。

文/图生成视频目前仍处于起步阶段,即使是智谱CogVideoX这样先进的模型也只能生成6秒钟的视频,通常存在明显的视觉缺陷。这可能是由于视频数据量庞大,需要更多的计算资源和时间来生成高质量的视频内容。文生成视频领域虽然面临着诸多挑战,但随着技术的不断进步和资源的不断投入,相信未来会取得更大的突破,为我们带来更加出色和引人入胜的文生成视频体验。