国内首个可调用API的视频模型，CogVideoX有多能打?

最新推荐文章于 2025-02-20 14:27:27 发布

大模型微调方法总结

最新推荐文章于 2025-02-20 14:27:27 发布

阅读量2.9k

点赞数 9

文章标签：大模型 AI

本文链接：https://blog.csdn.net/qq470603823/article/details/140930244

版权

近期，智谱AI在其Maas开放平台(bigmodel.cn)发布了视频生成大模型CogVideoX，它提供了国内首个通过API来使用的文生视频和图生视频服务！

话不多说，我们直接来看一下通过CogVideoX生成的一部短片。

技术原理

CogVideoX融合了文本、时间、空间三维度，参考Sora算法设计，为DiT架构，相比前代CogVideo推理速度提升6倍，理论上6秒视频生成仅需30秒。

深入CogVideoX的原理，得从智谱多模态技术布局讲起。2021年，智谱在NeurIPS’21上发表了文生图大模型CogView，奠定多模态系列基础。2022年，智谱在CogView基础上提出并开源文生视频模型CogVideo，被多家巨头引用。

CogVideo基于CogView2，采用Diffusion Transformer模型架构（DiT），它通过引入噪声并训练神经网络来逆转噪声增加的过程，结合Transformer模型，实现图像或视频的生成与变换。这个过程涉及数据预处理、噪声引入、模型训练以及最终的图像或视频生成。

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

数据预处理：将输入的图像或视频数据转换为模型可以处理的格式，如将图像切分成固定大小的patches（小块），然后将这些patches转换为特征向量。

噪声引入：在数据预处理后的特征向量上逐步引入噪声，形成一个噪声增加的扩散过程。这个过程可以视为从原始数据到噪声数据的转换。

模型训练：使用引入了噪声的特征向量作为输入，训练Diffusion Transformer模型。模型的目标是学习如何逆转噪声增加的过程，即从噪声数据恢复出原始数据。

图像或视频生成：在模型训练完成后，可以通过输入噪声数据（或随机生成的噪声）到模型中，经过模型的处理后生成新的图像或视频。这个生成过程利用了模型学习到的从噪声到原始数据的映射关系。

而且智谱还在CogVideoX用户指令遵循方面下功夫，自研视频理解模型生成高质量视频文本对，有效提高模型指令遵循度。

CogVideo论文链接：

https://arxiv.org/abs/2205.15868

CogVideoX上手体验

目前，CogVideoX已经在大模型MaaS平台bigmodel.cn上正式发布，还是国内首个可通过API体验AI生成视频，用户完成注册后即可体验其强大的视频创作能力。

下面，我将通过Python SDK来引导大家如何调用CogVideoX。文档链接：https://open.bigmodel.cn/dev/howuse/cogvideox

首先，请确保你已安装或升级了智谱AI的SDK。如果尚未安装，可以通过pip install zhipuai进行安装；若已安装但非最新版本，则需使用

pip install --upgrade zhipuai

进行升级。

完成SDK安装后，你可以通过简单的几行代码引入智谱AI的客户端：

from zhipuai import ZhipuAI

接下来，我将展示如何使用CogVideo模型进行视频创作，主要的函数有两个：

generations：生成视频
retrieve_videos_result：查询结果

请参考以下文生视频的示例代码：


from zhipuai import ZhipuAI

# 初始化客户端并传入你的API密钥
client = ZhipuAI(你的API_KEY)

# 使用CogVideo模型生成视频
# prompt参数为描述视频内容的文本
response = client.videos.generations(model="cogvideox", 
prompt="有一个女孩在喝咖啡，阳光洒在她的脸上，她看起来心情很好")
print(response)

请注意，视频生成是一个耗时过程，因此该请求是异步的。你将收到的响应中仅包含任务ID，而非视频内容本身。你可以通过查询该任务ID来获取视频的生成状态及结果。

以下是查询视频生成状态的示例响应：

VideoObject(id='1010028834062354330651310', model='cogvideo', video_result=None, task_status='PROCESSING', request_id='8833470954813038693')

为了获取最终的视频内容，你需要编写代码轮询查询该任务状态，直至其变为COMPLETED。以下是一个轮询查询并打印结果的示例函数：


import time

def video_task():
    response = client.videos.generations(model="cogvideo", prompt="风景优美的河里，有一只船划过")
    print(response)
    task_status = response.task_status
    task_id = response.id
    get_cnt = 0
    
    while task_status == 'PROCESSING' and get_cnt <= 40:
        time.sleep(10)  # 每10秒查询一次
        result_response = client.videos.retrieve_videos_result(id=task_id)
        print(result_response)
        task_status = result_response.task_status
        get_cnt += 1

# 调用函数
video_task()

然后就可以生成这样一段视频了：

如果是图生视频，你还需提供底图的image_url，平台支持通过 URL 链接或 Base64 编码格式上传图片，但请确保图片大小不超过 5MB。

from zhipuai import ZhipuAI
client = ZhipuAI(你的API key) # 填写您⾃⼰的APIKey

response  = client.videos.generations(
    model="cogvideo",
    prompt=prompt,
    image_url=url,
)
print(response)

下面是一个返回的response示例：

id='8868902201637896192' request_id='654321' model='cogvideox' task_status='PROCESSING'

紧接着，我们将利用此返回的id（注意，此处使用的是id而非request_id）来查询生成的视频结果。请参考以下代码示例：

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请在此处填入您自己的API密钥
response = client.videos.retrieve_videos_result(
    id="8868902201637896192"
)
print(response)

当您执行上述代码后，您将接收到类似以下结构的response示例：


{
    "model": "cogvideox",
    "request_id": "8868902201637896192",
    "task_status": "SUCCESS",
    "video_result": [
        {
            "cover_image_url": "https://sfile.chatglm.cn/testpath/video_cover/4d3c5aad-8c94-5549-93b7-97af6bd353c6_cover_0.png",
            "url": "https://sfile.chatglm.cn/testpath/video/4d3c5aad-8c94-5549-93b7-97af6bd353c6_0.mp4"
        }
    ]
}

如此，你便能优雅地获取到生成的视频及其封面图的链接信息。