运动可控!阶跃星辰 Step-Video-TI2V 图生视频模型开源

上海阶跃星辰智能科技有限公司宣布开源其最新的图生视频模型——Step-Video-TI2V。这一模型是基于30B参数的Step-Video-T2V训练而成,能够生成102帧、5秒、540P分辨率的视频,具有运动幅度可控和镜头运动可控两大核心特点,尤其在动漫效果方面表现出色。与现有的开源图生视频模型相比,Step-Video-TI2V不仅在参数规模上提供了更高的上限,其运动幅度可控能力还能平衡视频生成结果的动态性和稳定性,为创作者提供了更灵活的选择。

在这里插入图片描述
Step-Video-TI2V的开发过程中,团队进行了两大关键优化。首先,引入图像条件以提高生成视频与原图的一致性。与传统的cross-attention方法不同,该模型采用了更直接的方式,将图像对应的向量表示与DiT第一帧对应的向量表示直接进行channel维度的拼接,从而确保生成的视频与输入图片高度一致。其次,通过AdaLN模块引入视频动态性打分信息,使用户在生成视频时可以指定不同的运动级别,精准控制视频的动态幅度,从而平衡动态性、稳定性和一致性。此外,团队还对主体动作和镜头运动进行了专项精准标注,进一步提升了模型在主体动态性和运镜效果上的表现。

Step-Video-TI2V的核心特点包括运动幅度可控、多种运镜控制、动漫效果优异以及支持多尺寸生成。用户可以根据创作需求自由切换动态与稳定画面,生成从基本的推拉摇移、升降到复杂电影级运镜效果的视频。该模型在动漫类任务上的表现尤为突出,非常适合动画创作和短视频制作等应用场景。同时,它支持多种尺寸的图生视频,无论是横屏、竖屏还是方屏,都能满足不同平台的需求。

GitHub:

https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:

https://github.com/stepfun-ai/ComfyUI-StepVideo

### 开源项目用于文本成视频 为了实现从文本成视频的任务,通常需要结合多个技术组件来完成整个流程。一方面,存在专门针对文本到像或文本到视频成的应用程序,这些应用程序利用了高性能的Diffusion Transformer(DiT),能够有效地将自然语言描述转化为视觉内容[^1]。 ```python from transformers import pipeline text_to_video_generator = pipeline('text-to-video-generation') video_output = text_to_video_generator("A beautiful sunset over the ocean.") ``` 然而,在许多情况下,直接的文字成视频功能并不是现成可用的。因此,一种常见的做法是先使用文本转语音(TTS)工具创建音频文件,再借助视频编辑软件或其他专用APIs合成最终的产品。例如,可以采用开源AI模型如GPT-2成详细的场景描述作为中间步骤的一部分。 ### 开源项目用于成视频 对于由静态像序列构建动态影像的需求而言,同样存在着多种解决方案可供选择。某些框架允许开发者定义一系列变换规则,从而让计算机自动地把单张或多张静止的画面组合起来形成连贯的动作片段。值得注意的是,MetalCamera这样的iOS平台上的GPU加速库也提供了强大的能力来进行实时渲染以及复杂的后期特效处理操作[^3]。 ```bash # 安装 MetalCamera 及其依赖项 pip install metalcamera opencv-python numpy ``` 尽管如此,具体实施过程中还需要考虑诸如帧率同步、过渡效果设计等因素以确保产出质量达到预期标准。此外,也可以探索其他专注于多媒体创作领域的第三方插件和服务提供商所推出的特色功能模块。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值