突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！

是Eason啊

于 2024-07-30 02:48:01 发布

阅读量1

点赞数

7月26日，智谱Maas开放平台（bigmodel.cn）正式上线了全新的视频生成大模型CogVideoX，成为国内首个通过API完成图片和文本视频生成任务的开放平台之一。用户无需排队即可轻松使用该平台，通过简单的API调用即可生成高质量定制视频内容，节省了用户的时间和精力。

CogVideoX模型的推出，为用户提供了一个便捷、高效、智能的视频生成工具，让用户可以快速将图片和文本转化为动态视频，满足各种场景下的需求，为用户带来了全新的体验和可能性。CogVideoX模型让用户可以轻松创建各种类型的视频内容，包括个人创意作品、商业宣传片、教育培训视频等，无论是个人用户还是企业机构，都可以通过这一平台快速实现视频内容的生成和定制，满足不同需求和用途。

我们第一时间对CogVideoX的API接口进行了深入评测，对文生视频Prompt进行调优。

1.开发环境配置：

Windows10 操作系统，其它可联网环境均可。

Python版本支持：正式版python 3.11 (亲测3.8, 3.9, 3.10, 3.11, 3.12都可以）。

安装智谱Maas大模型接口 Python SD：pip install zhipuai

也可以参考官方文档安装：https://bigmodel.cn/dev/api#overview

注：调用文生图video接口，需要zhipuai sdk最新2.1.4版本，默认安装可能是2.1.0版本。可以print(zhipuai.__version__) 查看版本，如果不是，可以点击下方链接：https://github.com/MetaGLM/zhipuai-sdk-python-v4/releases/download/v2.1.4/zhipuai-2.1.4-py3-none-any.whl，下载最新whl到本地，按如下方式安装：

突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！_ide

2.1行代码完成文生视频调用：

python sdk支持通过环境变量配置APIkey，创建Client。个人的APIkey可以注册智谱Maas平台后，在bigmodel.cn/usercenter/apikeys 页面申请。

突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！_开源_02

通过调用Client对应的成员方法方式方便且快捷实现文生图功能。

突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！_开源_03

使用是异步调用的方式，调用完成会生成一个request_id,需要等待一段时间后，可以访问response状态“SUCCESS”和video_result获取生成视频。

突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！_神经网络_04

将生成视频的url拷贝复制到浏览器打开或下载到本地，就可以看到视频内容了。

小狗画图

可见通过API方式调用文生视频非常的方便，只需要3行代码就完成了整个调用。此外，Maas平台还支持HTTP调用，支持主流第三方框架入OpenAI SDK和Langchain SDK的使用方式；开发语言支持主流Python和JAVA。更多使用可以参考官方接口文档（https://open.bigmodel.cn/dev/api）和使用指南（https://open.bigmodel.cn/dev/howuse/）。

3.1行代码完成图生视频调用

与文生视频的方式类似，先调用Maas平台文生图的接口生成一些测试用例：

突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！_ide_05

生成的图片预览：

突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！_ide_06

文生图的质量还是非常高的，然后增加url调用图生视频的接口，prompt指定希望图片主体想要实现动作，一行代码就可以得到需要视频。

4.文生视频深入体验

通过调用api的方式，随机尝试了一些Prompt看看生成视频的效果，结果让我感觉非常惊艳。

狮子在海底游泳

狮子在海底潜水

小老鼠在火山口烤玉米

老鼠在火山口烤玉米

北极冰原上的考察站

极地冰原上，一座废弃科考站，远处传来极光闪烁的极光

5.图生视频深度体验

同样调用api的方式，随机生成一些图片并制定主体相关的Prompt，通过图生成一视频，效果也非常不错。

可爱的小猫

一只可爱的小猫在和打招呼

风铃摆动

挂载房檐上的风铃在随风摆动

6.文生视频Prompt调优：

通过不停地调试prompt组成，我发现prompt工程对于生成视频质量有很大的影响。通过总结，我发现一条文生视频Prompt技巧：

提⽰词(Prompt)=镜头描述+主体描述+主体运动描述+场景描述

通过构成和调整这四个部分，可以明显提升生成视频的质量，举个例子：

Step1. 原始Prompt 镜头+主体：草原上有两头母狮

两只母狮

Prompt里面只有关于主体和镜头描述，生成视频也比较简单，就一个场景，草原上的两头狮子，相当于一张动图。

Step2. 增加主体运动描述：两头母狮在大草原上奔跑

狮子在蹦跑

生成视频比前一个版本更像一个视频，主体“狮子”奔跑起来了，也有一些场景的切换。但生成视频对主体“狮子”本身及主体运动细节描述并不清晰，导致生成视频清晰度并不高。

Step3. 增加主体细节描述及运动细节描述：两头雄壮的狮子在草原上奔跑，它们你追我赶，嘶吼着，眼睛炯炯有神，目光坚定而锐利，毛发在阳光下闪闪发光。

健壮的狮子

生成视频的质量有了明显的提升，主体“狮子”本身的细节，健硕身材描述更加清晰；对于狮子主体奔跑的刻画也更加清晰。但视频对于奔跑的场景刻画还是不够清晰，场景过于简单。

Step4. 增加场景刻画：

两头雄壮的母狮在绿草如茵的草原上奔跑，它们你追我赶，嘶吼着，眼睛炯炯有神，目光坚定而锐利，草原上有低矮的草地和高大的灌木，还有一些花朵。

，时长00:06

生成视频包含了灌木和乔木，以及一些花朵，视频的内容进一步丰富，质量进一步提升。

7.体验评测集展望

深度试用了智谱AIMaas开放平台最新的文生视频和图生视频接口，整体感觉：1. 通过API使用确实非常简单且方便；2. 文生图效果非常炸裂，文生/图生视频效果挺不错；3. 视频生成Prompt工程会直接影响生成视频效果。

文/图生成视频目前仍处于起步阶段，即使是智谱CogVideoX这样先进的模型也只能生成6秒钟的视频，通常存在明显的视觉缺陷。这可能是由于视频数据量庞大，需要更多的计算资源和时间来生成高质量的视频内容。文生成视频领域虽然面临着诸多挑战，但随着技术的不断进步和资源的不断投入，相信未来会取得更大的突破，为我们带来更加出色和引人入胜的文生成视频体验。

原创作者: u_13046751 转载于: https://blog.51cto.com/u_13046751/11600210

是Eason啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
突发！Maas开放平台推出全新视频生成大模型，首创API调用，一手评测来了！

7月26日，智谱Maas开放平台（bigmodel.cn）正式上线了全新的视频生成大模型CogVideoX，成为国内首个通过API完成图片和文本视频生成任务的开放平台之一。用户无需排队即可轻松使用该平台，通过简单的API调用即可生成高质量定制视频内容，节省了用户的时间和精力。CogVideoX模型的推出，为用户提供了一个便...
复制链接

扫一扫