智谱AI视频生成模型CogVideoX v1.5开源支持5/10秒视频生成

原创

已于 2024-11-08 17:06:08 修改 · 1.6k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#音视频 #人工智能 #AIGC

于 2024-11-08 17:01:45 首次发布

今日，智谱技术团队发布了其最新的视频生成模型 CogVideoX v1.5，并将其开源。这一版本是自8月以来，智谱技术团队推出的 CogVideoX 系列中的又一重要进展。

据了解，此次更新大幅提升了视频生成能力，包括支持5秒和10秒的视频长度、768P 的分辨率以及16帧的生成能力。同时，I2V（图像到视频）模型也支持任意尺寸比例，进一步增强了复杂语义的理解能力。

CogVideoX v1.5包含两个主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V，旨在为开发者提供更强大的视频生成工具。

更值得关注的是，CogVideoX v1.5将同步上线至清影平台，并与新推出的 CogSound 音效模型结合，成为 “新清影”。新清影将提供多项特色服务，包括视频质量的显著提升、美学表现和运动合理性，支持生成10秒、4K、60帧的超高清视频。

官方介绍如下:

质量提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。

超高清分辨率:支持生成10s、4K、60帧超高清视频。

可变比例:支持任意比例，从而适应不同的播放场景。

多通道输出:同一指令/图片可以一次性生成4个视频。

带声效的 AI 视频:新清影可以生成与画面匹配的音效。

在数据处理方面，CogVideoX 团队专注于提升数据质量，开发了自动化筛选框架以过滤不良视频数据，并推出了端到端的视频理解模型 CogVLM2-caption，以生成精准的内容描述。这一模型能够有效处理复杂的指令，确保生成的视频与用户需求相符。

为了提升内容连贯性，CogVideoX

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。